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AVANT-PROPOS 


La pratique des recherches en statistique appliquée montre que 
pour mener à bien les tâches auxquelles il est confronté le chercheur 
doit se sentir à l'aise dans trois domaines: 

l'appareil mathématique de la statistique appliquée, c’est-à- 
dire essentiellement les méthodes appliquées de statistique mathé- 
matique ; 

la modélisation mathématique, c'est-à-dire l'art de formaliser 
le problème posé. un art qui consiste à traduire le problème du lan- 
gage de la discipline utilisatrice (économie, sociologie, médecine, 
elc.) dans le langage des schémas et modèles mathématiques abstraits ; 

le logiciel respectif. 

Les monographies, manuels et guides de traitement statistique 
des données publiés en U.R.S.S. et dans les autres pays n'étudient 
en principe que l’un des trois domaines mentionnés *). Cette situation 
s'explique à notre sens dans une grande partie par le fait que le point 
faible des applications statistiques réside dans la distance significa- 
tive qui sépare l'instant de la mise au point de l'appareil mathéma- 
tique de l'instant où cet appareil commence à être utilisé avec effi- 
cacité dans la résolution des problèmes posés. 

Le principal objectif des auteurs de cet ouvrage est de proposer 
un exposé systématique et cohérent sur les trois aspects (énumérées 
plus haut) de l'analyse statistique de l'information initiale au ni- 
veau de la première étape de traitement des données empiriques. 
Cette étape, appelée dans cet ouvrage étape de traitement statisti- 
que primaire, comprend: le dossier d'étude; l’organisation de l'en- 


*) Ces trois à cinq dernières années, de nombreux ouvrages étrangers ont 
été publiés qui décrivent les méthodes de traitement statistique en mème temps 
que le logiciel correspondant. Voir par exemple E. Diday et collaborateurs. 
Optimisation en classification automatique. Paris, INRIA, 1980 ; Lee Tc., Judge G., 
Zellner À. Estimating the parameters of the Markov probability model from aggregate 
time series data. North-Holland Publishing Company, Amsterdam-London, 1970. 
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trée et la mémorisation des données dans l'ordinateur; la visualisa- 
tion des données multidimensionnelles en vue de la formulation des 
hypothèses de travail; la manipulation des variables de divers types; 
le traitement des données manquantes et des données anomales; 
la description et l'analyse des répartitions empiriques; le test des 
hypothèses d'indépendance, d’homogénéité et de stationnarité des 
échantillons. 

L'ouvrage se compose de quatre parties. Les principes méthodolo- 
giques de la statistique appliquée et les principales définitions et mé- 
thodes de la modélisation font l’objet de la première partie. Cette 
partie est la moins « mathématisée », mais son assimilation permet- 
tra au lecteur de bien maîtriser les méthodes de traitement statisti- 
que des données. Les parties II et III (chapitres 4 à 9) développent 
les notions fondamentales de théorie des probabilités et de statisti- 
que mathématique. Ces chapitres peuvent servir aux étudiants des 
facultés scientifiques. L'assimilation de ce matériel exige du lecteur 
la connaissance des seules notions élémentaires de mathématiques, 
notamment les notions de fonction et de graphique d’une fonction; 
de suite numérique et de somme d’une suite; de dérivée (ordinaire et 
partielle); d'intégrale (définie et indéfinie); de calcul vectoriel et 
matriciel. 

La partie IV enfin est consacrée à la description des méthodes de 
traitement statistique préliminaire des données (chap. 10 et 11), 
aux aspects numérique et informatique de leurs réalisations sur ordi- 
nateur (chap. 12). 

Les tâches ont été réparties comme suit entre les auteurs: Aïva- 
zian: Avant-propos, chap. 1, 2, 4 à 9, $$ 3.2, 11.3, n°% 11.1.1, 11.1.2 
et 11.2.8; Enukov : chap. 11, 12, $ 10.5 (en collaboration avec Mé- 
chalkine), n° 8.6.6; Méchalkine: chap. 3, 10, $$ 6.3, 11.5, ainsi que 
(en collaboration avec Aïvazian) n°% 4.2.1, 5.4.3, 6.1.11, 6.2.4, $ 8.4, 
n°%% 8.6.3, 9.3.2 et 9.3.3. 

La nécessité de la publication d’un tel ouvrage tient à nos yeux 
aux raisons objectives suivantes. 

Primo, ces quinze à vingt dernières années, on a assisté à un in- 
tense développement des méthodes de traitement statistique qui font 
une large place à l'informatique tout en affaiblissant considérable- 
ment les hypothèses concernant le modèle mathématique et allant 
même jusqu'à renoncer à toute conjecture a priori sur la nature pro- 
babiliste des données traitées (statistique non paramétrique, modèles 
non linéaires et estimation itérative des paramètres, procédures sta- 
tistiques robustes, méthodes non probabilistes d'analyse des données). 

Secundo, le logiciel de la statistique mathématique appliquée 
est assez bien élaboré en U.R.S.S. comme dans d’autres pays: signa- 
lons entre autres le PPSA [108], l'OTEKS [106], les bulletins (vypou- 
sky) de logiciel du système unifié des ordinateurs de l’Institut de 
mathématiques de l’Académie des sciences de Biélorussie [88], le 
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système de programmes de reconstitution des dépendances au vu des 
échantillons de taille limitée de l’Institut des problèmes de gestion 
de l’Académie des sciences de l’U.R.S.S., le système de traitement des 
données empiriques SITO de l’Institut de recherches scientifiques 
de Léningrad du Centre de calcul de l’Académie des sciences de 
l'U.R.S.S. et les paquets étrangers BMDP, SAS, SPSS, STIL, 
OSTRIS, TROLL, le logiciel de traitement statistique multidimen- 
sionnel (CNET, Paris, 1982), SPAD-système portable pour l’ana- 
lyse des données (ŒSITA, Paris, 1982) et autres *). Mais les ouvrages 
actuels de statistique mathématique et traitement statistique des 
données (parmi lesquels il faut particulièrement signaler l'ouvrage 
en trois volumes de Kendall M. et Stuart A. [76], [77], [78]) esca- 
motent les méthodes non paramétriques et, rappelons-le, le logiciel de 
statistique mathématique appliquée. Les recueils de programmes 
statistiques (cf. [24], [88], [106], [108], [116]) ne contiennent aucun 
exposé tant soit peu systématique de ces méthodes. 

Dans cet ouvrage on a inclus de nombreux résultats inédits: la 
formulation d’optimisation des problèmes de statistique appliquée 
($ 1.2), la comparaison des bonnes propriétés des tests de Wald et de 
Neyman-Pearson ($ 9.5), la méthode des moments de pondération 
exponentielle pour l’établissement d’estimations statistiques robus- 
tes ($ 10.4), quelques méthodes de « codage » des variables qualita- 
tives ($$ 10.2, 10.5, n° 12.1.5). 

Cet ouvrage est le fruit des activités scientifiques et pédagogiques 
déployées par les auteurs à l’Institut central d'économie et de ma- 
thématiques de l'Académie des sciences de l’U.R.S.S., à l’Univer- 
sité d'Etat de Moscou et au Département central du Ministère de la 
Santé de l'U.R.S.S. 

Les auteurs expriment leur gratitude à V. Fedorov et E. Yassine 
qui se sont chargés de la lecture du manuscrit et ont contribué à 
améliorer l’exposé par leurs remarques judicieuses. Le contenu et la 
logique de cet ouvrage ont fortement bénéficié des contacts perma- 
nents des auteurs avec leurs collègues du séminaire scientifique « Ana- 
lyse statistique multidimensionnelle et modélisation probabiliste des 
processus réels » organisé sous les auspices du Conseil scientifique 
de l’Académie des sciences de l’U.R.S.S. sur le problème « Planifi- 
cation optimale et gestion de l’économie » depuis 1969, ainsi que 
du séminaire méthodologique national « Problèmes numériques de 
statistique mathématique » qui se tient à l’Université de Moscou sous 
la direction de Yu. Prokhorov. 

Les auteurs sont reconnaissants à L. Mett pour la présentation du 
manuscrit. 

Les auteurs 


*) Pour plus de détails sur ces travaux, consulter l’ouvrage: Algorithmes 
et logiciel d'analyse statistique appliquée. Outcheni zapiski po statistiké, t. 36, 
M., Naouka, 1980 (en russe). 
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STATISTIQUE APPLIQUÉE : 
ESSENCE ET OBJECTIF 


(principes méthodiques généraux) 


CHAPITRE PREMIER 


LA STATISTIQUE APPLIQUÉE : UNE DISCIPLINE 
SCIENTIFIQUE AUTONOME 


1.1. Lien entre la statistique appliquée et les autres 
disciplines statistiques et principales étapes 
de la recherche statistique 


1.1.1. Définition de la statistique appliquée. Faut-il user de ce 
terme ou se contenter de la traditionnelle notion de « statistique 
mathématique »? Comment la statistique appliquée est-elle reliée 
aux autres disciplines statistiques telles la « statistique mathéma- 
tique », l’« analyse des données », la «statistique économique », 
etc. ? Deux circonstances au moins plaident en faveur de la légitimité 
et de l'adéquation de traiter la statistique appliquée comme une 
discipline scientifique autonome. 

Primo, jusqu'alors deux tendances parallèles se sont dégagées 
dans le développement de la théorie, de la méthodologie et de la pra- 
tique du traitement statistique des données analysées. La première 
met en jeu des méthodes qui enrisagent la possibilité d'une interpré 
tation probabiliste des données traitées et des résultats statistiques 
fournis par le traitement. Ces méthodes (et elles seules!) font la 
matière de l’écrasante majorité des monographies et traités de statis- 
tique mathématique. En d’autres termes, par méthodes de statisti- 
que mathématique on comprend les seules méthodes de traitement 
statistique des données initiales, méthodes qui sont élaborées et mises 
en œuvre sous le rapport de la nature probabiliste de ces données *). 
La deuxième tendance fait intervenir une classe assez vaste de mé- 
thodes de traitement statistique de l’information initiale, plus exac- 
tement, tout l’ensemble des méthodes qui a priori ne s'appuient pas sur 
la nature probabiliste des données traitées (telles sont les méthodes de 
classification automatique, d'analyse des proximités, de la théorie des 


*) Telle est la situation de facto. Mais de jure si l'on se refère à l'Encyclopé- 
die soviétique, la statistique mathématique est comprise dans un sens plus large, 
plus exactement comme une « science sur les méthodes mathématiques de systé- 
matisation et d'utilisation des données statistiques pour des conclusions scienti- 
fiques et pratiques. De nombreuses sections de la statistique mathématique se 
basent sur la théorie des’probabilités qui permet d’estimer la fiabilité et l’exacti- 
tude des conclusions tirées à partir des données statistiques limitées ». 
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mesures, etc.) ne s'inscrit pas dans le cadre de la statistique mathé- 
matique. 

S'ecundo, les spécialistes de l'élaboration et de l’application des 
méthodes de traitement statistique de l'information initiale ne peu- 
vent tirer un trait sur l’importante étape qui sépare la fin de l’éla- 
boration d'une méthode purement mathématique de l'instant où cette 
méthode commence à donner ses fruits. Au cours de cette étape le 
mathématicien appliqué devra: 

bien appréhender l'essence du problème, utiliser de façon adé- 
quate les hypothèses initiales (sur lesquelles repose toute méthode 
mathématique) pour comprendre la nature du problème réel : 

résoudre (dans certains cas spéciaux) un problème fort complexe 
de réduction de l'information initiale présentée, par exemple, sous 
forme de signaux physiques, de balayages radar, de coupes géologi- 
ques, etc. à une forme standard (unifiée) (cf. (1.4) et (1.4); 

composer des algorithmes réalisables et le logiciel en tenant compte 
de la nature de l'information statistique traitée et des performances 
des ordinateurs; | 

mettre sur pied un procédé commode et efficace de communica- 
tion avec l'ordinateur durant la résolution du problème. 

Les notions, les méthodes et les résultats qui permettent de fran- 
chir cette étape, ainsi que l’ajustement et la mise au point de l’outil- 
lage mathématique, constituent l'essentiel de la statistique appli- 
quée. Ainsi donc, la statistique appliquée est une discipline autonome 
élaborant et systématisant des notions, des recettes, des méthodes et des 
modèles mathématiques destinés à l’organisation de la collecte *), à 
l'écriture standard, à la systématisation et au traitement (par ordina- 
teur) des données statistiques afin de les représenter sous une forme com- 
mode, de les interpréter et d'en tirer des conclusions scientifiques et pra- 
tiques. 

Certains spécialistes se servent pour définir ce système de notions, 
recettes, méthodes et modèles mathématiques du terme « analyse 
des données » pris dans une acception large. 


1.1.2. Deux façons d'interpréter les données initiales et deux 
approches de leur traitement statistique. Considérons deux exemples. 
Dans le premier, le but de l'analyse statistique est d'étudier les 
capacités d’une production en série sur des données initiales qui 


*) Par « organisation de la collecte » des données statistiques on comprend 
uniquement la détermination du procédé de sélection des unités (familles, entre- 
prises, pays, malades, etc.) à étudier statistiquement dans une population (cf. 
description de l’étape 2 dans 1.1.3). Nous n'’incluons pas ici l'élaboration d'une 
méthodologie et d’un système de variables de l’objet étudié: ce travail implique 
une approche professionnelle (économique, technique, médicale, etc.) de problèmes 
dont la résolution exige une information statistique, une approche qui est donc 
du ressort des spécialistes compétents et qui peut constituer un domaine spécial 
de recherches (par exemple, un domaine de la statistique économique). 
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sont le résultat du contrôle (d’après le principe binaire) d’un certain 
nombre d'articles prélevés aléatoirement. Si l’on teste » articles, les 
résultats peuvent être représentés sous la forme d’une suite de nombres 


Lis Los © © 9 Las (1.1) 


où le résultat du contrôle de l’article zx; est supposé égal à 1 si cet 
article est défectueux et à O0 dans le cas contraire. Si la production 
est au point et fonctionne en régime stationnaire (c’est-à-dire que 
ses capacités technologiques restent à un niveau constant), il est 
alors naturel d'interpréter la suite d’observations (1.1) comme un 
échantillon fini de la population infinie que nous aurions obtenuesi{l'on 
avait contrôlé tous les articles d'affilée. Dans ce cas, cet échantillon 
est considéré comme une partie intégrante, comme un représentant 
d’une population infinie « située apres lui », et ses principales carac- 
téristiques statistiques, par exemple sa moyenne arithmétique, qui 
on le voit aisément est la partie d'articles défectueux de cet échantil- 
lon, comme une approximation du nombre exact d'articles défec- 
tueux de toute la production. En pareille circonstance, on a la pos- 
sibilité virtuelle de répéter l’observation (ou l'expérience) réalisée 
en gardant le même ensemble réel de conditions, ensemble qui fait 
la part de l’action « perturbatrice » d’un grand nombre de facteurs 
aléatoires incontrôlables (qui sont la cause de la sfochasticité du ré- 
sultat de chaque observation). De telles situations peuvent être dé- 
crites par un modèle probabiliste (cf. $ 1.2 et 1.3). La suite d’observa- 
tions (1.1) s’interprète alors comme un échantillon aléatoire d’une 
certaine population, c’est-à-dire comme les valeurs expérimentales 
(ou observées) de la variable aléatoire étudiée, et son traitement sta- 
tistique implique des méthodes statistiques classiques (méthodes 
d'estimation statistique des paramètres inconnus, méthodes de test 
des hypothèses statistiques. etc., cf. troisième partie). 

Dans le cadre de cette interprétation probabiliste des données 
statistiques initiales (ou fichier), le chercheur est confronté simulta- 
nément à deux populations d'articles : une population réellement ob- 
servée représentée statistiquement par une suite d'observations (1.1) 
(c'est-à-dire un échantillon) et une population théoriquement ima- 
ginable (dite population générale). Les principales propriétés et carac- 
téristiques de l’échantillon dites empiriques peuvent être analysées 
et calculées à partir des données statistiques (1.1). Les principales 
propriétés et caractéristiques de la population générale, dites théo- 
riques, ne sont pas connues du chercheur, et la raison d’être des mé- 
thodes de statistique mathématique est justement de permettre de les 
déterminer avec le plus de précision à partir de celles des échantillons. 

[lustrons la deuxième interprétation des données statistiques 
initiales sur l’exemple suivant. Une étude statistique a été réalisée 
sur un ensemble de 74 villes moyennes (de 100 000 à 500 000 habi- 
tants) de la Fédération de Russie. Pour chaque ville on a relevé les 
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valeurs de 32 variables 20, 212), . .., 232), caractérisant le niveau 
d'instruction, la composition d’après le milieu social, l'âge et le 
sexe, la structure de l’emploi des habitants *). Les données statisti- 
ques initiales peuvent être représentées ici par une suite de vecteurs à 


32 dimensions 
Xi Nos ses Xo (1.2) 


où le résultat du sondage de la ville ÿ est le vecteur 


À; = 3 (1-3) 
(x) 


dont les composantes sont les valeurs numériques des variables ana- 
lysées pour chaque ville. Le but de l'analyse statistique des données : 
initiales (1.2) est de déterminer le nombre et la composition des divers 
types de villes, sous-entendu que par type on comprend une classe 
de villes de l’ensemble étudié, homogènes (similaires) par la struc- 
ture du niveau d'instruction, de la composition par âge et par sexe 
et du caractère socio-professionnel de leurs habitants**). Si l’on admet 
que la proximité géométrique de deux points-villes X; et X'; de la 
forme (1.3) dans l’espace respectif à 32 dimensions traduit leur homo- 
généité (similitude) par rapport aux variables analysées et justifie 
leur appartenance à un même type, alors pour résoudre le problème 
posé ci-dessus il faut faire intervenir des méthodes adéquates de 
classification automatique (reconnaissance des images « sans maître ») 
et d’abaissement de l’ordre. L'appareil mathématique de ces me- 
thodes prévoit certes le calcul de caractéristiques telles les moyennes, 


*) Chaque variable rh) (k — 1, 2, ..., 32) représente le nombre moyen 
d'habitants pour mille doués d'une certaine caractéristique: les quatre pre- 
mières variables (r(1) à r(#)) représentent le niveau d'instruction (supérieure, 
supérieure non achevée, secondaire spéciale ou brevet); les douze suivantes 
(z(5) à r(16)), la composition en fonction de l’âge et du sexe; les cinq suivantes 
(x) à r(*1)), le caractère socio-professionnel de la population; les autres, enfin. 
la répartition de la population suivant les branches de production de biens maté- 
riels et non matériels et suivant les sources de revenu. 

*#*) Ce problème s'est posé comme une étape intermédiaire d'une analyse 
assez détaillée des données statistiques sur les villes russes, visant à dégager les 
traits les plus caractéristiques et les lois de la structure socio-économique d une 
ville moyenne type. La réalisation d’une analyse circonstanciée dans chacune 
des 74 villes (sondages et enquêtes auprès de la population) est une œuvre de 
Titan. Aussi a-t-on opté pour une solution qui impliquait de subdiviser l'ensem- 
ble des villes étudiées en un certain nombre de types (de classes homogènes) 
dans l'espace à 32 dimensions analysé ; on a repéré dans chaque classe les villes 
les plus caractéristiques: les villes étalons (par exemple les villes les plus pro- 
ches du « centre de gravité » de leurs classes). puis on les a sélectionnées pour un 
examen plus détaillé. Cet examen a préludé aux recherches socio-économiques 
« Taganrog-1 », « Taganrog-2 ». 
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les variances, les covariances. etc., mais celles-ci caractériseront la 
nature et la structure seulement des données réellement analysables, 
c'est-à-dire seulement de l’ensemble des 74 villes analysées statisti- 
quement. Contrairement à l’exemple précédent qui impliquait l’ana- 
lyse statistique des résultats du contrôle d'articles produits en ré- 
gime stationnaire, l'exemple envisagé nous confronte à de sérieuses 
difficultés méthodologiques au niveau de 

l'interprétation des données statistiques initiales (1.2) comme 
un échantillon d’une population générale (théoriquement imaginable); 

l'utilisation des modèles probabilistes pour l'élaboration et le 
choix des meilleures méthodes de traitement statistique ; 

l'interprétation probabiliste des conclusions déduites de l'ana- 
lyse statistique des données initiales. 

C'est là que réside la différence fondamentale entre les deux 
approches de l'analyse statistique des données initiales. Mais dans 
l’une comme dans l’autre. le choix de la meilleure méthode de traite- 
ment s'effectue selon un critère matérialisé par une fonctionnelle de 
qualité de la méthode. Les approches décrites se différencient par le 
procédé de justification du choix de la fonctionnelle de qualité, ainsi 
que par l'interprétation de cette fonctionnelle et des conclusions sta- 
tistiques établies: dans le premier cas, l’analyste fonde son choix 
sur les hypothèses relatives à la nature probabiliste des données 
initiales et utilise lesdites hypothèses pour l'interprétation proba- 
biliste de ses conclusions; dans le second cas, l’analyste ne dispose 
d'aucune information a priori sur la nature probabiliste des données 
initiales et pour justifier son choix de la fonctionnelle de qualité 
il en appelle à des considérations d’ordre physique: comment et à 
quelle fin ont ete obtenues les données à traiter. Mais une fois choisi 
le critère d'optimisation de la qualité de la méthode, les outils ma- 
thématiques de résolution du problème de statistique envisagé sont 
communs aux deux approches: dans les deux cas, l’analyste utilise 
des méthodes de résolution de problèmes d’extremums. A vrai dire, 
ces approches divergent de nouveau au stade final de l’interpréta- 
tion des résultats obtenus. 

Donc, ces deux approches ont en commun l'information statis- 
tique initiale et la recherche du meilleur (sur le plan de l’optimisa- 
tion d’une certaine fonctionnelle de qualité de la méthode) traite- 
ment statistique de cette information pour en extraire des résultats 
scientifiques ou pratiques. 

Ainsi, avant d'entamer une analyse statistique de données ini- 
tiales l’analyste doit tout d’abord définir dans le cadre de quelle ap- 
proche il entend procéder à son analyse. En d'autres termes, il doit 
se livrer à un choix fondamental du type de modèle. À cet égard, les 
mises en garde de certains auteurs (cf. [12], [134]) contre la nocivité 
d'utiliser en toute occasion (parfois de façon irréfléchie) les méthodes 
probabilisto-statistiques comme principal instrument de traitement 
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des données initiales nous semblent judicieuses et utiles. Mais ceci 
ne doit pas jeter le discrédit sur ces méthodes: or, c'est semble-t-il 
l'objectif que s’est fixé l’auteur de [12] et c'est à cette conclusion 
(c'est-à-dire à l’inutilité et l’inefficacité des méthodes statistiques 
probabilistes) que sont arrivés de nombreux lecteurs de [134] que 
l’auteur l’ait voulu ou non. 

En réalité, il nous faut partir de la situation suivante. Nous com- 
mencerons à partir de l’instant où l’analyste est en possession des 
données statistiques initiales caractérisant les divers aspects du 
processus ou de l'événement étudié. Le problème est de traiter cette 
information de la meilleure façon possible (dans un certain sens) 
pour en tirer des conclusions scientifiques ou pratiques d’une certaine 
nature sur l'événement étudié. Pour préciser ce qu’il entend par 
« meilleure façon possible », l'analyste doit formaliser son problème, 
choisir un modèle. Tout modèle est une représentation (mathématique) 
simplifiée de la réalité étudiée (cf. $ 3.1). Il est évident que l’adé- 
quation du modèle choisi et de la réalité étudiée est un facteur dé- 
cisif garant de l'efficacité des méthodes de traitement statistique 
employées. Comme aucun des modèles sélectionnés ne reflète parfaite- 
ment la réalité, on ne peut qu'applaudir à la propension de l’ana- 
lyste à reprendre le traitement de ses données initiales en modifiant 
légèrement le modèle à chaque fois (cf. développement de cette dé- 
marche au $ 1.2). 


1.1.3. Principales étapes du traitement statistique des données 
initiales. Essayons maintenant de décrire le schéma logique géné- 
ral d'analyse statistique des données initiales. Pour expliquer le 
rôle et la place des principales recettes de modélisation statistique 
et des méthodes de traitement primaire des données initiales, nous 
décomposerons ce schéma en étapes pour la commodité. Il va de soi 
que cette décomposition est purement conventionnelle. En particu- 
lier, elle ne signifie pas que les étapes doivent respecter obligatoi- 
rement l’ordre chronologique. Bien plus, de nombreuses étapes (par 
exemple les étapes 4, 5 et 6) se trouvent en rapport d'’itération, c'est-à- 
dire que les résultats de la réalisation d'étapes ultérieures peuvent 
contenir des conclusions impliquant la répétition (compte tenu de la 
nouvelle information) des étapes précédentes. 

Etape 1: analyse initiale (préliminaire) du système étudié. Cette 
analyse définit: a) les principaux objectifs de l'étude à un niveau 
non formalisé dans les termes de la discipline utilisatrice; b) l’en- 
semble des unités faisant l’objet de l’étude statistique; c) la liste 
(9, 2%), ..., xP)) des variables qui caractérisent l'état (le com- 
portement) de chaque objet sondé (ces variables sont sélectionnées 
dans un ensemble préparé par les spécialistes de la discipline utili- 
satrice); d) le degré de formalisation des notations pendant la col- 
lecte des données ; e) la durée totale et le travail nécessités pour les 
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opérations projetées, la durée et le volume du sondage; f) les situa- 
tions impliquant une vérification préalable avant la composition d'un 
plan d'étude détaillé (par exemple, l'identification des unités d’ob- 
servation n’est pas toujours évidente a priori, ou dans un autre ordre 
d'idées l’accord d’un malade de se conformer aux prescriptions du 
médecin n'est pas automatiquement acquis, etc.); g) la position 
formalisée du problème avec éventuellement le modèle probabiliste 
de l'événement étudié et la nature des conclusions statistiques aux- 
quelles doit (ou peut) aboutir l’analyste par traitement des données 
initiales ; h) les formes de collecte de l'information primaire et de 
son introduction dans l'ordinateur. 

La première étape nécessite d’une équipe compétente un effort 
parfois aussi important que pour toutes les autres étapes, sous ré- 
serve que le traitement soit effectué avec un paquet de programmes 
convenables *). Ceci désigne tout particulièrement les méthodes 
d'assistance de l'ordinateur pour la réalisation de cette partie. Cette 
assistance peut consister en une suggestion (accompagnée d'une esti- 
mation) des formes de documentation pour la collecte de l’informa- 
tion initiale, des méthodes de construction des groupes de contrôle 
ou de « pseudo-contrôle » lors de l’étude d’une action quelconque 
(ce qui est d’actualité pour les applications en médecine), des modè- 
les convenables, du dictionnaire, etc. 

Etape 2: composition d'un plan circonstancié de collecte de l'infor- 
mation statistique initiale. La composition de ce plan doit dans la 
mesure du possible tenir nécessairement compte du schéma tout en- 
tier de l’analyse statistique, ce qu’on oublie souvent. La collecte 
de l'information gagnerait beaucoup si l’on savait a priori comment 
et à quelle fin se fait l’analyse. Une attention toute particulière doit 
être portée aux cas où: a) on se sert de l’appareil de l’analyse des 
échantillons (cf. par exemple [36]), c’est-à-dire qu’on définit la 
nature de l’échantillon (aléatoire, proportionnel, stratifié, etc.); 
b) on calcule le « pouvoir de résolution » d’une étude d’un volume 
et d'une durée donnés (cf. par exemple [95] où on majore le nombre 
d’associations statistiquement significatives entre les faeteurs risques 
et la fréquence des maladies ou bien [35] où on propose un modèle 
élémentaire pour la description phénoménologique de l’action des 
soins) ; c) l'expérience est active pour une partie au moins des varia- 
bles d'entrée : dans chaque observation concrète les variables sont fixées 
à un certain niveau et le plan d'étude est défini à l’aide des méthodes 
de planification des expériences (de régression) (cf. par exemple [52]). 
Dans certains traités de théorie générale de statistique (cf. par exem- 
ple [131]) cette étape est dite étape de « préparation organisationnelle 
et méthodique ». Comme déjà signalé, les problèmes d'élaboration 


*) Dans certaines études sociologiques spéciales, médicales et statistiques 
caractérisées par une grande dépense en temps et en moyens pers la collecte de 
l'information, la thèse formulée n'est valable que si l’on exclut l’étape 3. 
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d'une méthode de détermination d’un système de variables initiales 
caracterisant l’objet ou le processus étudié n’ont pas été inclus dans 
les étapes décrites ici et relèvent de la discipline utilisatrice du son- 
dage (économie, médecine, etc.). 

Etape 3: collecte des données statistiques initiales et leur introduc- 
tion dans l'ordinateur. On introduit en même temps les définitions 
complètes où sommaires (à des fins de reproduction automatique 
sur des tables) des termes employés. Le paquet doit prévoir des mesu- 
res excluant ou minimisant le risque de calcul sur un sous-ensemble 
inadéquat de données ou pour un autre sous-groupe d'objets. 

Donc, que l'analyste choisisse en personne la méthode et le plan 
d'étude statistique ou qu'il soit en possession des résultats de l'ex- 
périence passive, au moment où il aura à définir les principaux instru- 
ments de l'étude statistique, il disposera en général des données 
initiales sous la forme d'une suite, dépendan: du temps. de matrices 
d'observations 


(20 €, ee). ., 400) 


X (£) —_ rt) (£), 1) (t). os. a (+) (t — t.. . ty), (1.4) 


ee. +. + + ee ee ee ee + ee ee ee 


où r°*) (t)est la valeur de la variable k qui caractérise l’état de l'objet 
i à l'instant £. Il arrive que les t, soient aléatoires pour chaque objet. 
Cette situation se présente par exemple en médecine lorsque le vecteur 


zi” (ti) 
À à; (tr) — 
xil (li) 


caractérise le cours de la crise / du malade à et les malades ne pré- 
sentent pas le mème nombre de crises durant le même intervalle de 
temps [O, TI. Dans ce cas les matrices (X; (&)),ero, r; ont des di- 


mensions différentes pour des malades différents (c'est-à-dire pour 
des à différents). En médecine certaines coordonnées sont représen- 
tées non pas par des chiffres mais sous forme d’un texte. Ce mode de 
représentation des données initiales est propre aux études sociologi- 
ques, et dans un degré moindre aux études économiques. 

Souvent, et plus particulièrement lorsque les données statistiques 
initiales résultent de sondages, d'enquêtes, d’expertises, il est pos- 
sible que l'observation primaire porte non pas sur l’état de l'objet à 
à l'instant {, mais sur la caractéristique p;; (t) de la proximité (l’é- 
loignement) de deux objets (ou de variables) de numéros respectifs à 
et j à l'instant t. Dans ce cas les données initiales sont représentées 
par une suite dépendant du temps de matrices d’ordre » (si l’on con- 
sidère les caractéristiques de proximité de deux objets) et d'ordre p 


CH. 1. LA STATISTIQUE : UNE DISCIPLINE AUTONOME 23 


(si l’on considère les caractéristiques de proximité de deux variables) 
de la forme 


Purtt). Pit), -.., Pim (£) 


p(t) = Per (f). Paa(t), -.., Pam (t) (7, SE ]: (1.4) 
SG: Soirée O1 a Jus ds ne cd t=t;,, RAT L; 
Om (t); Pm2 (£), ...s Pmm (t) 


Il est évident qu’on peut passer directement de (1.4) à (1.4) 
{sous réserve que soit définie une métrique sur l’espace des objets 
et sur celui des variables). En général il est impossible de passer in- 
versement de (1.4°) à (1.4) sans conditions supplémentaires et sans 
méthodes spéciales (par exemple celles de l'analyse des proximités 
[84]). Il existe d’autres formes de représentation de la structure 
géométrique des données initiales, mais nous les négligerons ici. 

Pour simplifier les notations, on considérera, sauf mention ex- 
presse du contraire, la variante statique du schéma, c’est-à-dire une 
situation dans laquelle on considérera les données initiales (1.4) ou 
(1.4) à un instant fixe t que l’on omettra dans les notations. 

Etape 4: traitement statistique primaire des données. Le traitement 
statistique primaire des données doit généralement résoudre les pro- 
blèmes suivants: a) transformation des variables textuelles en varia- 
bles nominales (avec un nombre assigné de modalités) ou ordinales; 
b) description statistique des populations de base avec indication des 
limites de variation des variables; c) analyse des observations ano- 
males ; d) reconstitution des données manquantes; e) vérification de 
l'indépendance statistique des données initiales; f) unification des 
types de variables par des procédés divers; g) analyse expérimentale 
de la loi de probabilité de la population générale étudiée et paramé- 
trisation de l'information recueillie sur la nature des répartitions étu- 
diées (cette étape est parfois appelée établissement de la liste des indices 
agrégés (1311). De plus, dans le cadre de l'étape 4, il faut définir la 
dimension du problème, la complexité de son algorithme, l’aptitude 
de l'ordinateur à le résoudre, sa formulation dans le langage d’entrée 
du paquet, etc. (pour plus de détails voir la description de l’étape 6). 

Appesantissons-nous sur certaines des questions abordées. 

Analyse des observations anomales. Parfois un examen (auto- 
matique ou visuel) même fugitif des données initiales (1.4) ou (1.4) 
peut jeter la suspieion sur la véracité (ou la légitimité) de certaines 
observations qui tranchent nettement sur les autres. Dans ces cas, 
il est légitime de se poser la question suivante: ces écarts considé- 
rables (dépassements anomaux) sont-ils le fait des fluctuations aléa- 
toires habituelles de l’échantillon (fluctuations conditionnées par la 
nature de la population générale analysée) ou bien le fait d'une trans- 
gression aux normes habituelles de recueil des données statistiques, 
voire d'une erreur flagrante d'enregistrement (d'écriture)? Dans les 
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deux derniers cas les observations « suspectes » doivent être manifes- 
tement bannies. 

Le seul moyen absolument sûr de supprimer les observations ano- 
males est d'étudier en détail les conditions dans lesquelles elles ont 
été obtenues. Mais dans bien des cas cette analyse est objectivement 
difficile ou pratiquement impossible. Force est donc de se rabattre 
sur des méthodes (statistiques) formelles adéquates. Le schéma lo- 
gique général de ces méthodes est le suivant : en partant d’une hypo- 
thèse de base sur la nature de l’ensemble des données analysées, 
l'analyste se donne une fonction 


PU, AT, Xt 3 X) (1.5) 


de toutes les observations X, caractérisant le degré d’anomalie 
(l'écart par rapport à la principale masse des observations « sus- 
pectes » X?, . .., Xi porte dans (1.5) les valeurs réelles des obser- 


vations et compare la valeur obtenue à un seuil 4, *); si Ÿ >> 4%, 
les valeurs suspectes soit sont définitivement exclues, soit leur con- 
tribution est diminuée par le biais d’une fonction de poids qui dé- 
croît lorsque le degré d’'anomalie des observations croît. 

Diverses méthodes d’analyse des observations anomales sont act. 
cessibles dans le $ 11.5 (cf. également [7], [124]). 

Reconstitution des observations manquantes (effacées). Dans 
les matrices des données statistiques initiales (1.4) ou (1.4’) on cons- 
tate parfois pour des raisons diverses (y compris après l’exclusion 
des observations anomales) des omissions d'éléments isolés ou de 
toute une partie des lignes ou des colonnes. L’élimination ipso facto 
de l’objet tout entier (de la colonne incomplète) ou de l'indice (la 
ligne incomplète) nous priverait d’une information précieuse. Il 
se pose donc la question d’une meilleure reconstitution des données 
manquantes (effacées). Le critère de qualité de la reconstitution des 
données manquantes dépend du caractère du traitement ultérieur 
des données initiales, c’est-à-dire de la finalité de l’étude (cf. $ 11.4 
ainsi que [19], [106], [142])). 

Vérification de l’homogénéité de quelques tranches de données 
initiales. Les conditions objectives de recueil des données statisti- 
ques notamment dans le cas d’une expérience passive peuvent être 
telles que la (p X n)-matrice des observations (1.4) est la juxtaposi- 
tion de (p X n;}-, (p X n2)-, - .-., (p X n,)-matrices respectives 
X,, -.., Xx d'observations partielles (nr, + n +...+n; =n), 
où chaque matrice partielle X; définit une tranche de données ini- 
tiales se rapportant à une sous-population de #; objets. Ceci étant, le 


*) Dans la position probabiliste du problème, le seuil 1, est défini par des 
tables statistiques en fonction de la loi de probabilité de la statistique sous 
réserve que Îles observations X { re € à soient « blanchies ». 
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sondage (sa date) de ces populations peut être échelonné dans l’espace 
(dans le temps). 

ÏJ1 est évident qu'avant de traiter statistiquement les données 
initiales (c'est-à-dire avant de leur appliquer telle ou telle méthode 
d'analyse en fonction de l'objectif final de l'analyse) l’analyste doit 
répondre à une question : la réunion des tranches (échantillons) en un 
seul bloc est-elle légitime ou bien chaque tranche est-elle spéciti- 
que et doit-elle par conséquent être traitée séparément ? Au niveau 
des modèles statistiques mathématiques cette question consiste à 
établir (par des tests statistiques adéquats) si l’on peut traiter les- 
tranches de données X,, . .., N; comme des échantillons parents 
(i.e. extraits d'une même population générale; cf. par exemple [16)). 
Il est évident que si la cause du fractionnement est l'échelonnement 
des tranches respectives dans le temps, alors on a affaire à une vérifi- 
cation de la stationnarité des séries temporelles multidimensionnel- 
les correspondantes. 

Vérification de l’indépendance statistique d’une suite d’observa- 
tions constituant les données initiales. De nombreuses méthodes sta- 
tistiques ne s'appliquent qu'à des suites d'observations X,. X°, . .. 
..., Xh indépendantes. Ceci concerne également les suites{X; (t1), -.. 
-.., Xi (tr)}. Donc, avant de soumettre les résultats des observations- 
au traitement statistique principal, il faut déterminer (par des tests 
statistiques adéquats (cf. $ 11.3)) s’ils sont statistiquement indé- 
pendants ou s’il faut les traiter comme des suites de quantités interdé- 
pendantes. 

Unification des variables. L'une des difficultés de l’analyse- 
automatique de l’information réside dans le fait que les composantes 
xD, 20%), ..., x) de la variable multidimensionnelle analysée- 
peuvent être de trois types: quantitatives, qualitatives (ordinales) et 
nominales. Leur définition et les principales formes d'écritures de 
leurs valeurs observées sont citées dans les $$ 5.3 et 10.2. 

Ceci pose la question de l’uniformisation de l'enregistrement d'une: 
observation de l’objet i. Une solution consiste à représenter la i- 
ième observation multidimensionnelle par un vecteur colonne de 
dimension m1 + Ma +... + Mn, Où M est le nombre de modalités 
(d’intervalles de groupement, de niveaux de qualité ou de groupes 
homogènes) de la variable zt*), dont les composantes ne sont que 
des 0 et des 1. Si l’on opte pour ce procédé d’uniformisation, on doit 
prendre notre parti primo du subjectivisme qui préside au choix de 
la méthode de subdivision des intervalles de variation des variables 
analysées en sous-intervalles de groupement, secundo d’une certaine 
perte d’information sur les données initiales, entraînée par le passage 
des valeurs individuelles aux valeurs groupées des variables quantita- 
tives. 

On pourrait utiliser une autre méthode d'uniformisation de l’en- 
registrement des données initiales dont le principe est diamétrale- 
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ment opposé au précédent. Plus exactement, en s'appuyant sur des 
considérations (et des hypothèses) complémentaires, l’analyste peut 
tenter de transformer les variables qualitatives et nominales en va- 
riables quantitatives par « codage » ou par une méthode de l’analyse 
des proximités, ainsi que par des modèles spéciaux (de Terstown, La- 
zarsfeld et autres), cf. $ 10.2 et [48], [98], [118], [121]. 

Analyse expérimentale et paramétrisation de la loi de probabilité 
de la population générale étudiée. Cette partie du traitement sta- 
tistique préliminaire des données initiales (1.4) comprend le calcul 
des principales caractéristiques numériques de la répartition: la 
valeur moyenne, la variance, les coefficients de dissymétrie et d'’a- 
platissement, et dans le cas multidimensionnel, les éléments de la 
matrice des covariances empiriques. Par ailleurs, l'analyste procède 
à une analyse numérique et graphique des lois de probabilité à une 
dimension des variables étudiées en construisant les polygones de 
fréquence, les histogrammes et les fonctions de répartition empiri- 
ques respectifs. Les résultats de cette analyse expérimentale complé- 
tés par les informations dont on dispose sur la nature de la popu- 
lation générale analysée peuvent parfois suffire pour énoncer une ou 
plusieurs hypothèses concurrentes sur la forme (paramétrique) géné- 
rale de la loi de probabilité de cette population générale. Cette pos- 
sibilité ne doit pas être négligée dans la mesure où la connaissance de 
la forme générale de la loi de probabilité permet de mieux choisir la 
méthode d'estimation statistique des paramètres de cette population 
ainsi que la méthode de traitement statistique du fichier. On sait que 
l’analyste s’assure par des tests d'ajustement (cf. $ 10.3 et 11.1) que les 
hypothèses qu'il a avancées sur la forme générale de la loi de proba- 
bilité des observations analysées ne contredisent pas la nature et la 
spécificité des données initiales. 

Etape 5 : composition d'un plan détaillé de l'analyse numérique du 
fichier. Cette étape commence par la composition d’un dossier sta- 
tistique sur les données recueillies et sur les résultats de l'analyse 
préliminaire. On définit les principaux groupes à analyser. On procède 
à une mise à jour du dictionnaire des notions. On décrit soigneuse- 
ment l’organigramme de l'analyse en indiquant les méthodes solli- 
citées. On formule le critère d'optimisation qui présidera au choix de 
la méthode (ou de la famille de méthodes) de traitement statistique 
du fichier (cf. $ 1.2). 

Etape 6: réalisation numérique de la principale partie du traite- 
ment statistique du fichier. Le principal souci de l’analyste à cette 
étape est la conduite efficace des calculs moyennant une formulation 
adéquate du problème de traitement et de description des données 
initiales dans le langage d'entrée du paquet. Il faut tenir compte de 
la dimension du problème, de la complexité de l'algorithme, des 
performances de l'ordinateur (longueur des mots, rapidité, capacité 
-de la mémoire, organisation du fichier, etc.) et enfin des particulari- 
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tés des données (degré de conditionnement des matrices utilisées 
pour la réalisation des procédures linéaires, fiabilité des estimations 
«4 priori des paramètres, etc.). 

Etape T : bilan de l'analyse. Cette étape débute par la rédaction 
d'un compte rendu statistique formel sur l'analyse effectuée. L'in- 
terprétation des résultats des procédures statistiques (estimation des 
paramètres, tests entre hypothèses, applications dans un espace de 
dimension moindre, classification, etc.) tient compte aussi bien de 
la place de ces procédures dans l’organigramme que du rapport des 
tailles des échantillons utilisés, de la dimension de l'espace des obser- 
vations, du nombre et des valeurs des paramètres. L'aspect théorique 
de ces questions a été peu exploré malgré leur extrême actualité. 
Font exception les travaux [42], [99], [100]. Dans les cas où la théo- 
rie est incapable d'interpréter les résultats de calculs, on peut ap- 
peler à la rescousse la simulation statistique (cf. $$ 3.3 et G.3). 

Ensuite les résultats de l’analvse et les principales conclusions 
sont présentés dans les termes de la discipline utilisatrice. Si l’ana- 
lyse a été conduite avec des méthodes et des modeles de statistique 
mathématique, les conclusions sont formulées en termes d'estima- 
tions des paramètres inconnus du système analysé ou sous forme de 
réponse à la question de la validité de l'hypothèse statistique vérifiée 
et sont accompagnées des estimations du degré de leur validité. 
En revanche si l'étude est réalisée par les méthodes de l’analyse des 
données (c'est-à-dire dans le cadre de la deuxième approche), les 
<onclusions ne peuvent être interprétées probabilistiquement. 

En conclusion on vérifie dans quelle mesure les objectifs définis 
dans l'étape { ont été atteints, et si certains ne l’ont pas été, on ex- 
plique pour quelle raison. Le travail s'achève par la formulation en 
termes adéquats des nouveaux problèmes issus de l'analyse effectuée. 

Dans certains traités de théorie générale de statistique (cf. par 
exemple [131]) les étapes 5, 6 et 7 sont regroupées en une seule inti- 
tulée « Traitement et analyse ». 

Concluons la description du schéma logique général de l'analyse 
des données initiales en signalant que les méthodes de simulation 
statistique et les méthodes de traitement statistique primaire sont 
transcendantes dans la réalisation des importantes étapes 1, 4 et 7 
et en cas de nécessité peuvent être appliquées aux étapes 3, 5 et 6. 


1.2. Formulation d'optimisation des principaux problèmes 
de statistique appliquée et stabilité des inférences 
statistiques 


1.2.1. Lien entre la formulation d’optimisation des principaux 
problèmes de statistique appliquée et la stabilité des inférences sta- 
tistiques. Nous avons signalé plus haut que les principaux problè- 
mes de traitement statistique du fichier pouvaient être énoncés sous 
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la forme d'un problème d'optimisation général (avec un critère d'op- 
timisation de la qualité de la méthode choisi en conséquence) de telle 
sorte que et les méthodes de mathématique statistique et les métho- 
des logico-algébriques soient élaborées comme solutions de ce pro- 
blème. Montrons que si le critère d'optimisation de la qualité de la 
méthode et la classe de solutions admissibles sont dûment choisis, 
on peut dans le cadre d’une même approche obtenir des méthodes et 
des modèles éprouvés dans les problèmes 

d'étude statistique des dépendances; 

de classification des objets ou des variables: 

de représentation condensée des données. 

Par ailleurs, l'introduction de critères de qualité d’une méthode 
(n° 1.1.2) permet de mettre en œuvre une technique utile de recher- 
che de méthodes de traitement statistique conduisant à des infé- 
rences stables par rapport à une variation des conditions initiales 
(par rapport à la nature et la précision de l’enregistrement des don- 
nées traitées). Il faut, en particulier, résoudre plusieurs fois un problè- 
me d'optimisation afin de déterminer la meilleure méthode de traite- 
ment statistique des données pour divers critères de qualité, par 
exemple, pour des critères formant toute une famille dépendant d’un 
ou de plusieurs paramètres. Ceci nous conduit en définitive à un en- 
semble d’inférences statistiques : à chaque critère correspond sa meil- 
leure méthode, à chaque meilleure méthode, son inférence statisti- 
que. Dans cet ensemble d’inférences statistiques il faut donc en choi- 
sir une ou plusieurs qui varient peu quand on passe d’un critère à 
un autre dans un domaine de variation assez vaste [8], [11], [137]. 

L'adéquation et l'actualité d’une telle procédure de traitement 
statistique des données sont dues au fait que, en général, ni l’infor- 
mation initiale sur la nature probabiliste des données à traiter ni la 
connaissance du mécanisme « physique » de l’événement étudié ne 
nous fournissent des motifs suffisants susceptibles de justifier le choix 
de tel modèle et, partant, de tel critère de qualité de la méthode. Or cela 
signifie qu’il faut tenir en réserve toute une classe de modèles admis- 
sibles (de critères). Ceci explique pourquoi les inférences statistiques 
fondées sur le principe du maximum de vraisemblance pèchent souvent 
par la stabilité de leurs « bonnes » propriétés (la réalisation de ce 
principe implique que soit postulé a priori un type de loi de proba- 
bilité des données traitées). 

De façon plus concrète, le $ 10.4 développe une forme d’établis- 
sement d'’inférences statistiques stables pour un problème d’estima- 
tion. 


1.2.2. Etude statistique des dépendances des variables. L'étude 
du caractère et de la structure des dépendances des variables caracté- 
risant l’état ou le comportement des objets (processus) sondés est le 
principal objectif de l’analyse statistique multidimensionnelle. Rien 
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d’étonnant donc que le problème qui sert d’intitulé à ce numéro pré- 
vale incontestablement tant du point de vue de son actualité que du 
point de vue de la richesse et du degré d’élaboration de l'appareil 
mathématique correspondant. Font partie de ce dernier les méthodes 
d'analyse de régression, d'analyse des corrélations, des variances et 
covariances, de planification extrémale des expériences de régression, 
les méthodes d'analyse des séries temporelles, certains méthodes et 
modèles de dépendances d'un type spécial (par exemple, markovien). 

Dans la plupart des cas, le schéma général d'étude de ce problème 
est le suivant. Le vecteur X des variables enregistrées est décomposé 
en deux sous-vecteurs dont l'un, par exemple, 


zx) 
XW=| : 
x(m) 


est interprété comme le vecteur des caractéristiques des conditions 
de fonctionnement (ou d'état) du système étudié (en principe, tout ou 
partie de ces caractéristiques font l’objet d’une régulation ou d’une 
commande partielle) et le second, 


z(m+i) 
XO = : 
x) 


comme un vecteur des variables résultantes caractérisant le comporte- 
ment ou l'efficacité du fonctionnement (la qualité) du système analysé*). 
Le problème consiste à expliquer de façon suggestive le comporte- 
ment des variables résultantes X(° par une variation des variebles 
d'entrée X(), c'est-à-dire à définir une fonction vectorielle 


f, (x) 
LOT DE 


fp=m (X) 


dans la classe des solutions admissibles F, qui donne la meilleure ap- 
proximation, dans un certain sens, du comportement du vecteur 
X® sur l’ensemble des points-observations {X;};-1, ... .n. Pour for- 
muler mathématiquement ce problème, introduisons les quantités 
Ôx; = Ô (fr (Xi°)) qui caractérisent les erreurs affectant la descrip- 
tion de la variable résultante z"**) par la fonction f, (X(®) au 


*) Les variables X() sont souvent appelées variables d'entrée ou explicati- 
ves, ou encore prédicteurs (en économétrie la plupart d’entre elles sont des varia- 
bles exogènes). Les variables résultantes X(°) s'appellent variables dépendantes 
ou prédictantes. ou réponses (en économétrie la plupart d’entre elles forment les 
variables endogènes). 
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point X;, puis la fonctionnelle 
AP) = A(Kôu:}, k=1,..., p—m, i=1,...,n) (1.6) 


comme une mesure de l’adéquation du modèle 
X9 & f (XO). 


L'étude statistique des dépendances des variables X() par rap- 
port aux variables X( revient donc à déterminer une fonction vec- 


torielle f (X®) qui soit solution du problème d'extremum 


A (F (X()) = extr À (F (X()). (1.7) 
fer 


La forme concrète des erreurs 6,;, de la fonctionnelle d’adéqua- 
tion À (f) et de la classe de fonctions admissibles F dépend de la 
nature des données initiales analysées et de certaines informations 
initiales (sous réserve qu’elles existent) sur la nature et la structure 
des dépendances cherchées. Si F est une famille {f (X( : 6)} de fonc- 
tions dépendant d’un paramètre, le problème (1.7) se réduit à la dé- 


termination (estimation statistique) des valeurs des paramètres 8 
réalisant l’extremum (1.6) et les méthodes correspondantes sont dites 
méthodes paramétriques. 

Dans [10] on trouvera les variantes de ce schéma général qui sont 
les plus couramment utilisées en théorie et en pratique. Ces variantes 
étudient presque toutes des modèles additifs d’approximation-ré- 
gression de la forme 


X) = f (XU)) Le. (1.8) 


dans lesquels le vecteur colonne à (p — m) dimensions des restes # 
décrit soit (à titre de composante aléatoire résiduelle) l'influence de 
l’ensemble des facteurs aléatoires négligés sur X{°), soit (à titre d'er- 
reur d’approximation) le degré d’approximation des variables X(°) 
par des fonctions de classe F, soit (chose plus fréquente en réalité) 
l’un et l’autre à la fois. 

Il est évident que la variante paramétrique du modèle (1.8) 
peut être mise sous la forme 


X0®) = f (X0; 6) + e. (1.8”) 


Selon le caractère des conditions supplémentaires imposées à 
la nature des restes £& et à la classe de fonctions F, on débouche sur 
telle ou telle forme concrète des erreurs 6; et de la fonctionnelle A, 
ce qui définit le type des modèles d’approximation-régression et la 
méthode d'estimation des paramètres inconnus du modèle. 

La méthode de description formalisée du problème d'étude sta- 
tistique des dépendances quoique assez générale n’a pas l’ambition 
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de couvrir l’ensemble de toutes les positions des problèmes et modè- 
les se rapportant à ce sujet. 


1.2.3. Classification des objets ou des variables. S'agissant de 
la classification d’un ensemble d'objets, on conviendra que chacun 
d’eux est défini par une colonne de la matrice (1.4) ou bien que la 
structure géométrique de leurs distances (liens) est donnée par la 
matrice (1.4). Dans la classification des variables, l'information 
initiale admet la même interprétation sauf que chaque variable est 
donnée par une ligne de la matrice (1.4). Dans la suite, si le contraire. 
n’est pas spécialement mentionné, nous ne ferons pas de distinction 
entre les objets et les variables en raison de l'identité de la position 
des problèmes et de la principale méthode d'étude. 

La position générale (non rigoureuse) du problème de classifi- 
cation des objets consiste à subdiviser la population des objets O — 
= {O;};1, .... n représentée sous la forme (1.4) ou (1.4”) en un petit 
nombre de groupes ou classes homogènes dans un certain sens. Pour 
formaliser ce problème, il est commode d'assimiler les objets analy- 
sés aux points de l’espace factoriel : si les données initiales sont de 
la forme (1.4), ces points sont la représentation géométrique d'ob- 
servations multidimensionnelles X,, X:, . X, dans un espace X 
à P dimensions ramené aux axes de coordonnées Or, Ozt®), 

, 0x); si les données initiales sont de la forme (1. 4 ), analys- 
te ne connaît pas les coordonnées de ces points, mais la structure 
de leurs distances. Il est naturel de postuler que la proximité géo- 
métrique de deux ou plusieurs points de cet espace est synonyme de 
proximite des états « physiques » des objets correspondants, de leur 
homogénéité. La classification revient alors à diviser la population 
des points-observations en un petit nombre — connu ou pas — 
de clusters (agglomérats, taxons, formes) situés à une certaine distance 
l'un de l’autre (au sens de la métrique définie dans l’espace X cor- 
respondant) mais qui ne se partitionnent pas eux-mêmes en classes 
aussi éloignées *). 

Il est évident que l'algorithme de classification S doit obéir à 
certaines règles, règles qui peuvent être formulées dans un cas assez 
général sous forme d’un critère ou d’une fonctionnelle de qualité 
de la classification Q (S). La forme de cette fonctionnelle, la position 
du problème de classification et la définition de la classe A des règles 
admissibles de classification dépendent du caractère de l’informa- 


*) La structure géométrique de la population des objets peut être telle 
que cette classification ne passe pas (par exemple. si les points sont uniformé- 
ment distribués dans un domaine de l’espace X). L'application formelle de ces 
méthodes de classification à de telles populations conduit dans ces cas à envisa- 
ger une ordinaire partition du domaine étudié de l’espace X en un certain 
nombre de sous-domaines de groupement (analogues multidimensionnels des 
intervalles de groupement obtenus je du traitement statistique primaire des 
observations en dimension un). 


732 STATISTIQUE APPLIQUÉE : ESSENCE ET OBJECTIF 


tion initiale sur les classes cherchées et de la présence (ou de l’ab- 
sence) d'une information préliminaire empirique (dite échantillon 
d'apprentissage) sur ces classes. 

Ainsi, dans le cas général le problème de classification d’une 
population O d'objets représentée sous la forme (1.4) ou (1.4’) peut 
être formulé comme le problème de la détermination d’une parti- 
tion (règle de classification) S* de la population O en classes dis- 


k 
jointes ST, S25, ..., S$; US$ = 0, SiNS; = @ pour ij, 
e 
telle que la fonctionnelle de qualité Q (S) soit minimale, c’est-à-dire 
Q (S*) = min Q (S), 
SEA 
ou maximale, c'est-à-dire 


Q (S*) = max Q (S). 
SEA 


Le nombre de classes À peut être inconnu ou donné. 

Dans [10] est exhibée la forme concrète des fonctionnelles Q (S) 
et des classes A des règles de résolution admissibles conduisant à des 
schémas connus tels que l'analyse discriminante, la décomposition des 
mélanges des lois de répartition, l'analyse des clusters, etc. 


1.2.4. Abaissement de la dimension de l'espace factoriel et sé- 
lection des variables les plus informatives. Le passage d’un nombre 
élevé p de variables initiales caractérisant l’état (le comportement, 
l'efficacité du fonctionnement) du système analysé à un nombre p° 
plus petit de variables plus informatives (qui soit sont sélectionnées 
selon un certain critère parmi les variables initiales, soit en sont des 
fonctions) est dicté au moins par trois raisons essentielles: primo, 
par le recouvrement de l'information fournie par des variables forte- 
ment corrélées ; secundo, par la non-informativité des variables variant 
peu au passage d’un objet à un autre (faible variabilité des variables); 
tertio. par l'éventualité d'une agrégation. c'est-à-dire d’une sommation 
simple ou pondérée, de certaines variables. Formellement, le passage 
{avec une perte minimale en information) à une nouvelle collection 
de variables 29, z%, ..., zP7) peut être décrit de la manière sui- 
vante. Soit Z = Z (X) une fonction vectorielle p'-dimensionnelle des 
variables initiales z(M, xt%, . ... 2°) (p° << p) et soit Th (Z (X)) 
la mesure d'informativité du système p'-dimensionnel de variables 
Z(X) = GO (X), 2% (X), ..., Pr) (X)), mesure qui est donnée 
a priori. Le choix de la fonctionnelle Z,. (Z) est tributaire de la spé- 
cificité du problème réel résolu et repose sur l’un des deux critères 
suivants: un critère d'autoinformativité visant à conserver dans le 
fichier {X;}i=1, ....n le maximum d'information fournie par les 
variables initiales et un critère d'informativité exogène visant à 
«presser» de {X;}h1=1,....n le maximum d’information fournie par 
d’autres variables (exogènes). 
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Le problème consiste à définir une collection de variables Z ap- 
partenant à une classe F de transformations admissibles des varia- 
bles initiales 211, . .., x) telle que 


Le (Z (X)) = max Ze (Z (X)). 
ZzeFr 


Les diverses variantes de concrétisation de cette position (qui 
dictent le choix de la mesure d’informativité Z, (Z) et de la classe F 
des transformations admissibles) conduisent à des méthodes concrè- 
tes d’abaissement de la dimension: méthode des composantes princi- 
pales, analyse factorielle, groupement extrémal des paramètres, etc. 


(cf. [10)). 
Conclusions 


4. La statistique appliquée est une discipline scientifique qui éla- 
bore et systématise les notions, méthodes et modèles mathématiques 
destinés à l’organisation de la collecte. de l'enregistrement standard, 
de la systématisation et du traitement (y compris avec un ordinateur) 
des données statistiques en vue d'une représentation commode, d’une 
interprétation et de l'établissement de conclusions scientifiques et 
pratiques. 

2. Les problèmes de l'élaboration des méthodes de définition d’un 
système de variables initiales caractérisant l’objet ou le processus 
étudié relèvent des disciplines utilisatrices (économie, médecine, etc.). 

3. La statistique mathématique qui conçoit et baille une partie 
de l’appareil mathématique utilisé par la statistique appliquée est 
complètement déchargée de fonctions propres à cette dernière telles 
que 

l'ajustement et la mise au point des instruments mathématiques 
en fonction des traits spécifiques du problème réel étudié ; 

l'élaboration de techniques logico-algébriques de traitement sta- 
tistique des données, c'est-à-dire de techniques ne conjecturant pas 
la nature probabiliste des données traitées; 

la réduction des diverses formes d’information à une forme stan- 
dard de représentation des données initiales et leur préparation au 
traitement ; 

l’organisation d’un traitement automatique sur ordinateur, la 
mise en place d’un logiciel. 

4. Il est commode de diviser la procédure d'analyse statistique 
des données en quatre éfapes essentielles : 

étape 1: analyse initiale (préalable) du système étudié ; 

étape 2: établissement d’un plan de collecte de l’information 
initiale ; 

étape 3: collecte des données initiales, préparation et introduc- 
tion de ces données dans l'ordinateur; 
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étape 4: traitement statistique préliminaire des données; 

étape 5: sélection des principaux méthodes et algorithmes de 
traitement statistique des données, établissement d’un plan circons- 
tancié d'analyse numérique des données; 

étape 6: réalisation du plan d'analyse numérique des données 
initiales (exploitation directe de l'ordinateur); 

étape 7: bilan de l'analyse. 

Les étapes ont été énumérées dans l’ordre chronologique, mais, 
en cas de nécessité, elles peuvent être réalisées par une procédure 
séquentielle : les résultats de la réalisation d'étapes en aval peuvent 
nécessiter le retour à des étapes en amont avec une prise en considé- 
ration de la nouvelle information. 

5. Chaque problème fondamental de statistique appliquée peut 
être énoncé sous forme d'un problème d'optimisation général pour un 
certain critère d'optimisation (une fonctionnelle) de la qualité de la 
méthode. Cette présentation en termes d'optimisation permet notam- 
ment: 

de définir le cadre dans lequel il faut chercher les méthodes proba- 
bilistes et logico-algébriques de traitement statistique des données; 

de décrire une méthode constructive d'établissement d’inférences 
statistiques stables. 

6. Le principal objectif de l’analysestatistiquemultidimensionnelle 
est l’étude des dépendances entre les variables pour résoudre les 
problèmes suivants: reconstitution de la valeur d’une variable ré- 
sultante à partir des valeurs des variables « illustratives »; la clas- 
sification des observations multidimensionnelles ; l’abaissement de la 
dimension de l’espace factoriel étudié. 


CHAPITRE 2 


MÉTHODE DE RAISONNEMENT PROBABILISTE 
EN STATISTIQUE APPLIQUÉE 


2.1. Théorie des probabilités et conditions de son 
application 


2.1.1. Ensemble statistique et « jeu du hasard ». Au chapitre 1 
nous avons signalé l'existence de deux techniques de traitement sta- 
tistique des données: une technique mathématico-statistique (pro- 
babiliste) et une technique logico-algébrique. L'’analyste n’est con- 
traint de recourir à la deuxième approche que lorsque les conditions 
de collecte (d'enregistrement) des données initiales ne s'inscrivent 
pas dans l'ensemble statistique, c’est-à-dire dans les cas où il n’existe 
aucune possibilité pratique ou à la rigueur virtuelle de reproduire 
fidèlement les principales conditions dans lesquelles se sont déroulées 
les mesures des données analysées. 

Dans les conditions d'ensemble statistique l’analyste a la pos- 
sibilité d'appliquer les méthodes mathématico-statistiques classi- 
ques de traitement des données pour justifier le meilleur choix des 
méthodes de traitement, de représentation finale et d'interprétation 
des données analysées lorsqu'il utilise les diverses informations ini- 
tiales sur leur nature aléatoire (stochastique). Ceci étant, il est en- 
tendu que même la fidélité — que nous avons postulée — de la re- 
production des principales conditions de l'expérience ou de l’ob- 
servation ne nous met pas à l'abri dans la plupart des situations réel- 
les (compte tenu de leur complexité, de leur multiplicité et de l’étude: 
incomplète des facteurs qui en sont la cause) d’une dispersion aléatoire 
des résultats de l'observation. Ainsi, une machine-transfert même 
réglée de façon idéale n’est pas en mesure de produire des pièces 
absolument identiques entre elles (et au modèle). On est confronté 
aux mêmes conditions d'ensemble statistique et de dispersion aléa- 
toire des variables étudiées quand on analyse le nombre de pièces 
défectueuses dans un lot d’une certaine taille prélevé dans une pro- 
duction en série en régime stationnaire ou bien le revenu moyen par 
personne dans des foyers pris au sein d’une population homogène 
(sous un angle social, géographique, économique, etc.). 

Mais partout où le hasard semble se jouer à la surface, il est tou- 
jours sous l’empire de lois internes cachées. Or, ce sont justement la 
théorie des probabilités et la statistique mathématique qui offrent à l’ana- 
lyste et des modèles mathématiques différents de telles lois internes 
cachées et les outils indispensables à l’analyse théorique et empirique 
de leurs propriétés et corrélations. Les parties II et III sont consacrées 
à la description du strict minimum de leurs notions fondamentales. 
3e 
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2.1.2. Théorie des probabilités et conditions d’ensemble statis- 
tique. « La théorie des probabilités est une science qui permet à 
partir des probabilités d'événements aléatoires de déterminer les 
probabilités d’autres événements aléatoires liés d’une certaine ma- 
nière aux premiers... On peut dire aussi que la théorie des probabi- 
lités est une science mathématique définissant (en termes de modè- 
les mathématiques ! — S.A.) les lois régissant l'interaction d’un 
grand nombre de facteurs aléatoires » *). 

On a déjà signalé que la méthode probabiliste de raisonnement 
(et l'appareil mathématique correspondant) se prêtait le mieux à 
l'étude des problèmes soumis à l’action d’un système de conditions 
stationnaire (c'est-à-dire ne dépendant pas du temps) comprenant un 
grand nombre de facteurs incontrôlables qui ne permettent pas de 
dire avec certitude si l'événement qui nous intéresse aura lieu ou non. 
Ceci étant, on admet qu’on a en principe la possibilité (au moins 
virtuelle) de répéter plusieurs fois l'expérience ou l’observation ef- 
fectuée dans le cadre des mêmes conditions. Ce sont ces conditions 
qu'on qualifie ordinairement de conditions d'action d'un ensemble 
statistique ou encore de conditions de respect de l’homogénéité sta- 
tistique de la population analysée. 

Les exemples les plus simples et les plus suggestifs de situations 
réelles vérifiant la condition de stabilité statistique (ou s'inscrivant 
dans le cadre d’un ensemble statistique) nous sont fournis par les 
jeux de hasard **). En effet, quand on jette une pièce, un dé ou quand 
on tire une carte d’un paquet, et qu'on s'intéresse à la probabilité 
d'apparition de « face », du «six » ou de la « dame de pique»,on a 
toutes les raisons de supposer que: 

a) l’on peut répéter plusieurs fois la même opération dans les 
mêmes conditions; 

b) la présence d'un grand nombre de facteurs aléatoires caracté- 
risant les conditions de réalisation de chaque opération ne permet 
pas d'affirmer que l'événement nous intéressant aura bien lieu ou 
non ; 

c) plus le nombre d'expériences sera élevé et plus les fréquences 
relatives d'apparition des événements étudiés seront proches de cer- 
taines valeurs constantes appelées probabilités de ces évenements, 
plus exactement, la fréquence relative d'apparition de « face » sera 
proche de {/,, celle du « six », proche de {/, et celle de la « dame de 
pique », proche de !/., (pour un jeu de 52 cartes). 


*) Encyclopédie mathématique. M., Sovietskaïa entsiklopedia, 1976, €t. Ï, 
p. 655-656. 

**) Historiquement les jeux de has1rd sont à l’origine de l’émergence et de 
l’intense développement de la théorie des probabilités. Les premiers résultats 
intéressants sont l'œuvre de L. Pacioli (« Summa de arithmetica, geometria, pro- 
portioni e proportionalita », 149%, Venezia), de G. Cardano (« Opera Omnia», 
1563. tome 1) et de N. Tartaglia (« General Trattato di numerie misure », Vene 
zia, 1560). Cf. [6]. 


CH. 2. MÉTHODE DE RAISONNEMENT PROBABILISTE 37 


Il est évident que les conditions d'ensemble statistique impliquent 
dans le cas des trois expériences précédentes que la pièce de monnaie 
soit symétrique (ou que la pièce de rechange soit absolument la même), 
que le dé ne soit pas pipé et que la carte tirée soit remise dans le 
paquet qui sera soigneusement battu avant le tirage suivant. 


2.1.3. Classification des situations réelles par les conditions d’en- 
semble statistique. Dans les plus importantes sphères de l’activité 
humaine: économie, processus sociaux, technique, industrie, mé- 
decine, sciences, etc., il faut dans chaque cas concret s'assurer que 
les conditions d'ensemble statistique sont bien réunies. 

La réalisation des propriétés a), b) et c) destabilité statistique peut 
servir de critère à la classification des problèmes posés dans les di- 
vers domaines des connaissances humaines en trois catégories. 

La première catégorie (ou catégorie de haute performance des mé- 
thodes probabilistes et statistiques) couvre les situations dans lesquel- 
les les propriétés a), b) et c) de stabilité statistique sont indiscuta- 
blement réalisées ou bien sont si peu violées que cela n’affecte prati- 
quement pas les conclusions statistiques acquises à l’aide des modè- 
les probabilistes. Outre la rubrique déjà signalée, cette catégorie 
englobe encore divers domaines d'économie et de sociologie et notam- 
ment les problèmes liés à l’étude du comportement d'un objet (un 
individu, une famille ou une autre unité socio-économique ou indus- 
trielle) en tant que représentant d'une grande population homogène 
composée d'objets identiques (cf. par exemple [3], [9]. [137]). Un 
domaine de prédilection des méthodes probabilisto-statistiques est 
la démographie (cf. [32], (1261). Les notions probabilistes sont fonda- 
mentales dans les sciences de l’ingénieur telles que la théorie de la 
Jiabilité des systèmes composés d’un grand nombre d'éléments (cf. 
[60]) et la théorie du contrôle aléatoire de la qualité d'une production 
(cf. [20], [60]). En médecine, les techniques probabilisto-statistiques 
ont permis d'introduire la notion des facteurs de risque de l’évolu- 
tion des principales maladies chroniques et de quantifier leur in- 
fluence contribuant ainsi à une plus grande individualisalion. donc 
à une grande efficacité des mesures prophylactiques et des traite- 
ments (cf. [103], [135]). Les résultats d'études probabilisto-statisti- 
ques spéciales montrent que la probabilité de vivre jusqu'à un cer- 
tain äge n'est pas affectée par d'importantes variations (en fonction 
des conditions de vie). Ces résultats ont servi de support à l’éta- 
blissement de tables de survie (cf. [35]) qui, dans une certaine mesure 
et dans un certain sens (plus exactement du point de vue statistique 
et non individuel bien sür!), bousculent la vieille maxime « per- 
sonne ne connaît l’heure de sa mort ». Le mode de raisonnement pro- 
babilisto-statistique joue un rôle éminent dans les recherches en 
physique contemporaine (notamment, en physique statistique, cf. [74]) 
et en mécanique classique (en théorie statistique des gaz). 
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Signalons un trait général important propre à l’écrasante majo- 
rité des problèmes des activités humaines susmentionnées dans les- 
quelles les méthodes probabilisto-statistiques font largement recette. 
Il s'agit de la très grande dimension de l’information traitée, c’est-à- 
dire de situations dans lesquelles l’état ou le comportement de cha- 
cun de ces objets est décrit à tout instant par tout un ensemble de 
variables. Ces variables peuvent être aussi bien quantitatives (re- 
venu moyen de chaque membre d’une famille, nombre d’une famille, 
volume de la production brute d'une entreprise, etc.) qu'ordinales 
(classification d'un spécialiste, caractéristique comparative des 
conditions de logement) ou nominales (profession, nationalité, sexe, 
causes de migration, etc.). Toutes ces variables sont liées entre elles 
de façon complexe. 

Ces situations donnent lieu à des schémas multidimensionnels 
dont l'étude implique des méthodes d'analyse statistique multi- 
dimensionnelle. 

La deuxième catégorie (ou catégorie des applications probabilisto- 
statistiques admissibles) englobe les situations caractérisées par d’im- 
portantes violations de l’invariance des conditions de l'expérience 
(deuxième moitié de la condition a)) et par les écarts par rapport à 
Ja condition c) qui en résultent. Une forme caractéristique des écarts 
par rapport aux conditions d'ensemble statistique est la réunion en 
une seule série d'observations (à traiter) de tranches de données 
initiales recueillies dans des conditions différentes (à des dates ou 
dans des populations différentes). Dans cette catégorie d’applica- 
tions on peut aussi rapporter une classe de problèmes liés à l’analyse 
de courtes séries temporelles enregistrées dans des conditions excluant 
pratiquement la possibilité de mesurer simultanément plusieurs réa- 
lisations empiriques de la série temporelle étudiée sur un même 
intervalle de temps. L'usage des méthodes probabilisto-statistiques 
est possible dans ce cas, mais les résultats et conclusions sont sujets 
à caution (par exemple, il ne faut trop se fier aux caractéristiques 
numériques du degré de vraisemblance de ces conclusions, c’est-à- 
dire au niveau de confiance, au seuil de signification d’un test, etc.), 
aussi faut-il dans la mesure du possible les assister d’autres métho- 
des d'analyse scientifique. 

La troisième catégorie enfin (ou catégorie des applications proba- 
bilisto-statistiques inadmissibles) comprend les situations caractérisées 
soit par le rejet de l’idée maîtresse de l’ensemble statistique, savoir 
la multitude des unités de la population étudiée (on entend par là l’im- 
possibilité formulée dans la condition a) de répéter une même expé- 
rience dans les mêmes conditions), soit par le déterminisme total 
de l'événement étudié, c'est-à-dire l'absence de l'effet « perturba- 
teur » des facteurs aléatoires (violation de la condition b)). Dans de 
telles circonstances l'analyste doit se servir de méthodes d’analyse 
des données (cf. [43]) et doit tirer un trait sur la possibilité d’in- 
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terpréter probabilistiquement les données traitées et les conclusions 
acquises par le traitement de ces données. 

Il n'existe pas de méthodes mathématiques rigoureuses suscep- 
tibles de nous dire si nous sommes ou non dans des conditions d’en- 
semble statistique: tout modèle probabiliste de même que tout mo- 
dèle mathématique n’est en général qu’une approximation de la réa- 
lité analysée. On ne peut envisager que les situations qui s’inscri- 
vent manifestement dans un ensemble statistique (lancement d’une 
pièce de monnaie, d’un dé; contrôle des articles d'une production en 
série fonctionnant en régime stationnaire, etc.), celles qui s’y ins- 
crivent approximativement, avec des réserves, et enfin celles qui 
sont complètement étrangères. Signalons que de nombreux points 
restent à éclaircir même dans la troisième catégorie. Ainsi, par exem- 
ple, du point de vue de l’ensemble statistique, les événements du 
type « en l’an 2000 une guerre éclatera entre les pays A et B » ne font 
pas partie de la deuxième catégorie à cause de la violation de la con- 
dition a)! Mais il existe une conception des probabilités subjectives 
(cf. par exemple [90]) qui permet d'envisager de tels événements. 
Pour cela il suffit de solliciter l’avis d'experts et au lieu de répéter 
plusieurs fois une expérience dans les mêmes conditions on peut se 
contenter de l’analyse de Ia situation par des experts. Il est évident 
que l'expert est alors interprété comme un instrument de mesure fournis- 
sant des résultats entachés d'une erreur aléatoire. La précision de cet 
« instrument de mesure », c'est-à-dire la précision de la « prédiction » 
par l'expert de l’événement analysé, dépend aussi bien de l’influ- 
ence objective de facteurs aléatoires « perturbateurs » (c'est-à-dire 
de l'échéance de l’événement, de la complexité de la situation, etc.) 
que de la documentation, de la clairvoyance et de bien d’autres qua- 
lités de l’expert. Sans nous mêler du débat qui oppose les partisans 
de la probabilité subjective à ceux de la probabilité classique, disons 
seulement qu’en la matière le seul juge objectif est la pratique. Rap- 
pelons à ce propos la pensée développée par F. Engels dans l’« Anti- 
Düring »: « .. La mathématique, pourtant si austère, a commis le 
péché originel ; elle a mangé le fruit de l’arbre de la science, qui lui 
a ouvert la carrière des progrès les plus gigantesques, mais aussi 
celle des erreurs. L'état virginal où tout ce qui était mathématique 
avait une valeur absolue et était démontré d’une manière irréfra- 
gable fut perdu pour jamais ; alors s’ouvrit le règne des controverses, 
et nous en sommes arrivés au point que la plupart des gens diffé- 
rentient et intègrent sans comprendre ce qu'ils font, par un pur acte 
de foi, parce que cela a toujours réussi jusque-là » *). 

En récapitulant le débat sur l’essence, la destination et les limi- 
tes d'application de la théorie des probabilités, nous pouvons un siè- 


*) F. Engels. M.E. Düring bouleverse la science (Anti-Düring). Traduit par 
Bracke (A.M. Desrousseaux). Tome 1, Philosophie, Paris. 1946, page 125. 
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cle et demi plus tard après le célèbre savant français Laplace répéter 
avec plus d'assurance et de conviction qu'il est remarquable que 
la science qui a commencé par l'étude des jeux se soit hissée aux 
plus importants objets de la connaissance humaine *). 


2.2. « Rapports » entre la théorie des probabilités et la 
statistique mathématique 


2.2.1. Mode statistique de prise de décision. Supposons que le 
lecteur observe deux personnes jouant au dé d’après les règles sui- 
vantes. Le joueur A reçoit un rouble de la part du joueur B si en 
quatre coups il sort au moins une fois le six (appelons cette issue 
« six ») et lui verse un rouble dans le cas contraire (appelons cette 
issue « non-six »). Après cent coups le lecteur doit remplacer l’un des 
deux joueurs avec la possibilité de miser soit sur l'issue « six », soit 
sur l'issue « non-six ». Comment doit-il faire correctement son choix ? 

Le mode statistique de résolution de ce problème est dicté par le 
bon sens et consiste en ce qui suit. Après avoir suivi les cent coups 
des deux joueurs et calculé les fréquences relatives de leurs gains, 
le lecteur devrait en toute logique miser sur l’issue qui est apparue 
le plus souvent. Par exemple, le joueur B a gagné 52 parties sur 100, 
c’est-à-dire que le six n’est pas apparu une seule fois en 52 parties 
de quatre coups (réciproquement, il est apparu au moins une fois dans 
les 48 autres parties). Donc, si le lecteur applique le mode statisti- 
que de raisonnement, il juge qu'il aura intérêt à miser sur l'issue 
« non-six », c’est-à-dire sur l'issue dont la fréquence relative d’ap- 


parition (p) est égale à 0,52 (<<0,50). 


2.2.2. Mode probabiliste de raisonnement. Ce mode est basé sur 
un modèle mathématique de l'événement étudié: si l’on admet que 
le dé est symétrique, donc que les chances d'apparition de chaque 
face sont égales (en d’autres termes, que la fréquence relative ou pro- 
babilité d'apparition du «un»est égale à celle du « deux », du 
& trois »,..., du «six»et vaut 1/,, on peut calculer la probabilité 
p = P {« non-six »} de réalisation de l'événement « non-six », c’est- 
à-dire la probabilité de ne voir apparaître aucune fois le «six » 
en quatre coups successifs. Ce calcul est basé sur le modèle mathé- 
matique adopté. La probabilité de non-apparition du six en un coup 
de dé est égale à la somme des probabilités d'apparition du « un », 
du « deux », du «trois », du « quatre » et du « cinq », c'est-à-dire 
(en vertu de la définition de la probabilité d’un événement, cf. $ 4.1) 
à ‘/;. On applique ensuite le théorème du produit des probabilités 
(cf. n° 4.1.3) qui dit que la probabilité d'événements indépendants 
est égale au produit des probabilités de chacun d'eux. Dans le cas 


*) Œuvres complètes de Laplace. T. 7: Théorie analytique des probabilités. 
Paris, Gauthier-Villars, 1886, p. CLII. 
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æm 


considéré, on s'intéresse à la réalisation de quatre événements indé- 
pendants consistant en la non-apparition du « six » et ayant la même- 
probabilité de ‘/. Donc 


p=P {anon-six»}==.—e—.—— 7 = 0,482. 


On voit que la probabilité de l'événement « non-six » est infé- 
rieure à la demie, donc, celle de l'événement « six » est plus élevée: 
4 — 0,482 = 0,518. Par conséquent, le lecteur qui aura choisi le- 
mode probabiliste de raisonnement arrivera à une conclusion dia- 
métralement opposée à celle du lecteur qui aura opté pour le mode: 
statistique et il misera sur l'événement « six ». 


2.2.3. Mode probabilisto-statistique (ou mathématico-statisti- 
que) de prise de décision. Ce mode est en quelque sorte une synthèse 
des deux précédents, puisqu'il utilise aussi bien les données statisti- 
ques initiales recueillies (sous forme des fréquences relatives d’ap- 
parition du «six » et du « non-six », qui, rappelons-le, sont respec- 
tivement égales à 0,48 et 0,52) par les observations que les résultats 
fournis par le modèle probabiliste. Mais le modèle adopté dans ce cas 
est plus souple, il épouse la réalité en utilisant à cet effet l’informa- 
tion statistique accumulée. En particulier, ce modèle ne postule plus 
la symétrie des dés, il admet que le centre de gravité soit déplacé. 
Le caractère de ce déplacement (si déplacement il y a) doit se mani- 
fester dans les données statistiques initiales recueillies. Mais le lec- 
teur qui a choisi le mode probabilisto-statistique de raisonnement 
doit avoir présent à l’esprit que les valeurs des fréquences relatives 
des événements « six » et « non-six », déduites de ces données, ne sont 
que des valeurs approchées des vraies probabilités (des probabilités 
théoriques) de ces événements: en effet, quand on jette une pièce 
de monnaie idéalement équilibrée, disons 10 fois de suite, on peut 
très bien obtenir 7 piles; donc, la fréquence relative de pile est égale- 
à 0,7; mais cela ne signifie encore pas que les probabilités théoriques 
d'apparition de pile et de face sont respectivement égales à 0,7 et 
0,3 : on sait que ces dernières sont égales à 0,5. De façon analogue, 
la probabilité de « non-six » observée dans les séries de cent coups 
(qui est égale à 0,52) peut être différente de la probabilité théorique, 
donc n’est pas une raison suffisante au choix de cette situation. Toute- 


la question est de savoir de combien Pn probabilité observée (au 
terme de nr épreuves), diffère de p probabilité théorique de l'éve- 


nement qui nous intéresse, et comment l'écart p, — p dépend du 
nombre #7 d'observations. (Intuitivement, il est clair que plus le- 
nombre r d'observations est élevé et plus les fréquences relatives- 


empiriques Pn sont crédibles, c'est-à-dire plus elles sont proches. 
des probabilités théoriques p.) Dans notre cas, on obtient la ré- 
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ponse à cette question en raisonnant comme suit: a) on interprète 
1a réalisation de tout nombre de parties comme une suite d'épreuves 
de Bernoulli, ce qui veut dire que le résultat de chaque partie est 
indépendant de celui des précédentes et que la probabilité inconnue p 
de l'événement « non-six » est la même pendant toutes les parties; 


b) on utilise le fait que l'erreur À, = p, — p suit approximative- 
ment la loi normale avec une moyenne nulle et une variance égale à 
pt — pin (cf. $ 6.1). 

Ces considérations permettent en particulier d’estimer la valeur 
absolue de l’erreur | À, | commise en remplaçant la probabilité 
inconnue p de l'événement étudié (ici l'événement « non-six ») 


par la probabilité Pn calculée sur nr épreuves (ici, z — 100 et P100 = 
= 0,52). Si l’on peut calculer la valeur absolue de l'erreur éven- 
tuelle À,, il est naturel d'adopter la règle suivante de prise de décision : 


si la fréquence relative p, de l'événement « non-six » est supérieure 
à 0,5 et continue de l’être après soustraction de l'erreur éventuelle 


| À, |, l'observateur a alors intérêt à miser sur « non-six »; si p, 
est inférieure à 0,5 et continue à l'être après addition de l'erreur éven- 
tuelle | À, |, il a intérêt à miser sur l'événement «six »; dans les 
autres cas, il n’a aucune raison, sur le plan statistique, de préférer 
un événement à l’autre (c’est-à-dire qu’il doit ou bien poursuivre 
les observations, ou bien miser sur l’un ou l’autre des deux événe- 
ments sachant vertinemment que son gain ou sa perte ne seront pas 
élevés). 

Le calcul approché de la plus grande valeur de cette erreur d’après 
le théorème de Moivre-Laplace (cf. $ 7.3) nous montre que, dans ce 
-Cas, on a presque sûrement (plus exactement avec une probabilité 
-de 0,95) l'inégalité 


* "p(Â—p) 
lPn —PpI<2 v/ 22. (2.1) 


En élevant (2.1) au carré et en résolvant l’inéquation obtenue 
‘par rapport au paramètre p, on trouve 


* 2 2 = 1 
Pr+= 21 Pal pu) + 
ET 


n . 
" , 2 / Pn(Â—pPn) |, 1 
SE PC PET RRREUNT 
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ou, à O(1/V n) près, 


ANSE THIS PRE Œü 
A , à 1 n) A | à y 
Pn—2 À ENST ETES (2.2) 


n 


Dans le cas considéré (pour Pn — 0,52 et n — 100), on obtient 


A.l&e2t At) /Vr=2V0354—059/y 100 + 0,10. 


Donc, 
0,52 — 0,10 < p < 0,52 -- 0,10. 


Donc, les observations des issues des cent parties nous permettent 
seulement de conclure que la probabilité de l’événement « non-six » 
peut être un nombre quelconque de l'intervalle [0,42 ; 0,62], c'est- 
à-dire qu'elle peut être aussi bien inférieure à 0,5 (auquel cas il faut 
miser sur « six ») que supérieure à 0.5 (et il faut alors miser sur « non-. 
six »). 

En d’autres termes, le lecteur qui utilise le mode probabilisto- 
statistique de résolution du problème aboutit à une conclusion plus 
prudente : les cent parties qui lui ont servi de données statistiques 
initiales ne suffisent pas à définir avec certitude la plus probable des 
issues. D'où la solution: soit poursuivre son rôle de «spectateur» 
jusqu’à ce que le domaine de valeurs des probabilités p déduites de 
la double inégalité (2.2) ne soit entièrement situé à gauche ou à droite 
de 0,5, soit participer au jeu en le jugeant proche d’un jeu « inof- 
fensif », c’est-à-dire un jeu dans lequel il pourra sauver sa mise 
dans une longue série de parties. 

Cet exemple illustre le rôle et la vocation des méthodes proba- 
bilistes et de statistique mathématique ainsi que les liens qui les 
unissent. Si la théorie des probabilités offre à l’analyste un ensemble 
de modèles mathématiques destinés à décrire les lois régissant des 
événements ou le comportement de systèmes fonctionnant sous l'effet 
d’un grand nombre de facteurs aléatoires corrélés, la statistique ma- 
thématique permet de sélectionner dans un ensemble de modèles pro- 
babilistes celui qui correspond le mieux, dans un certain sens, aux don- 
nées statistiques dont dispose l'analyste. 


Conclusions 


1. La théorie des probabilités est une discipline mathématique visant 
à élaborer (et à étudier les propriétés) de modèles mathématiques 
simulant les mécanismes de fonctionnement d'événements réels ou 
de systèmes dont les conditions de « vie» sont perturbées par un 
grand nombre de facteurs aléatoires (c'est-à-dire échappant à un 
contrôle strict). 
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2. La statistique mathématique est un système de notions, recettes 
et méthodes mathématiques utilisant des modèles probabilistes et 
destinées à la collecte, à la systématisation, à l'interprétation et au 
traitement des données statistiques pour en tirer des conclusions d'or- 
dre scientifique et pratique. L’une des principales vocations des mé- 
thodes de mathématique statistique est le choix. dans un ensemble 
de modeles probabilistes admissibles, du modèle qui répond le 
mieux aux données statistiques caractérisant le comportement réel 
du système étudié. 

3. Le domaine d'application des méthodes probabilisto-statistiques 
est défini à strictement parler par le respect (au moins approxima- 
tivement) des conditions d'ensemble statistique, plus exactement : 
a) par la possibilité (virtuelle) de répéter les expériences ou les obser- 
vations dans les mêmes conditions ; b) par la présence d’un grand nom- 
bre de facteurs aléatoires caractérisant les conditions de réalisa- 
tion des expériences (des observations) et ne permettant pas de con- 
clure à la réalisation ou non de l'événement qui nous intéresse. 

4. Il n'existe pas de méthodes mathématiques rigoureuses indiquant 
que l’on se trouve dans les conditions d'ensemble statistique : tout modèle 
probabiliste de même que tout modèle mathématique n'est qu'une 
approximation de la réalité étudiée. Les situations réelles étudiées 
peuvent être, comme nous l'avons déjà signalé, classées convention- 
nellement dans trois catégories : 1) la catégorie de haute performance 
des méthodes probabilisto-statistiques ; 2) la catégorie des applica- 
tions probabilisto-statistiques admissibles; 3) la catégorie des ap- 
plications probabilisto-statistiques inadmissibles. À noter que bien 
des situations classées dans la troisième catégorie peuvent être trai- 
tées aussi bien par les méthodes d'analyse des données que par des 
méthodes statistiques utilisant les probabilités subjectives. 


CHAPITRE 3 


MODÈLES MATHÉMATIQUES 
EN STATISTIQUE APPLIQUÉE 


3.1. A quoi servent les modèles mathématiques ? 


{3.1.1. Deux façons de voir la modélisation statistique. En étudiant 
au chapitre 2 les rapports entre la théorie des probabilités et la sta- 
tistique mathématique, nous avons été amenés à conclure que si la 
théorie des probabilités livre à l’analyste un ensemble de modèles 
mathématiques imitant les mécanismes de fonctionnement de phéno- 
mènes réels kypothétiques ou de systèmes de nature stochastique, l'une 
des principales vocations de la statistique mathématique est le 
choix fondé, au sein d’un ensemble de modèles admissibles, du mo- 
dèle qui répond le mieux (dans un certain sens) aux données statis- 
Ts initiales caractérisant le comportement réel du système ana- 
ysé. 

Donc, le meilleur traitement statistique des données initiales 
est un problème dont la résolution dépend en premier lieu de la con- 
naissance de modèles convenables et de l'hzbileté de l'analyste à les 
« ajuster » à la réalité étudiée, et au besoin. à construire un nouveau 
modèle reflétant les traits spécifiques du problème étudié. Ce chapitre 
est consacré à l'exposition de certaines notions et généralités rela- 
tives à cette « connaissance » et cette « habileté ». 

La construction et l'expérimentation d'un modèle, c'est-à-dire 
la description mathématique des relations entre les éléments réels 
du système analysé, impliquent généralement l’utilisation simultanée 
de deux types d’information : a) une information a priori sur la nature 
et le caractère des relations analysées ; b) des données statistiques ini- 
{iales caractérisant le processus et le résultat du fonctionnement du 
système analysé. Ceci étant, on opte pour l’une des deux approches 
(plus exactement, pour la première ou pour leur combinaison). 
Si l'analyste dispose des deux types d’information, alors il se sert 
généralement d’une méthode de modélisation mathématique pour 
décrire les relations cherchées par des équations analytiques en s'ap- 
puyant sur l'information initiale (formalisée mathématiquement sous 
forme d'’hypothèses initiales) caractérisant ces relations, puis par 
un traitement statistique de l'information b) estimer les valeurs nu- 
mériques des paramètres figurant dans ces équations (étape d’ajus- 
tage du modèle). Si en revanche l'analyste ne dispose que d'une in- 
formation initiale de type a) ou d’une information des deux types et 
qu’il veuille simuler le comportement du système analysé sous une 
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variation des paramètres figurant dans la description analytique 
du modèle ou de générer artificiellement (en s’appuyant sur les rela- 
tions décrivant le modèle) des données statistiques de type b) pour 
les compléter, alors il doit en plus des éléments de modélisation ma- 
thématique mentionnée ci-dessus s'assurer le concours d’un ordina- 
teur. Ce type de modélisation s'appelle modélisation statistique ou 
de Monte Carlo. 


3.1.2. Notion de modèle mathématique. Le modèle mathémati- 
que est une abstraction du monde réel dans laquelle les relations 
entre les éléments réels, qui intéressent l’analyste, sont remplacées 
par des relations convenables entre des objets mathématiques que 
nous appellerons relations de fonctionnement du modèle. Les modèles 
mathématiques décrits par des variables aléatoires sont dits probabi- 
listes ou stochastiques. Tout modèle est une représentation simplifiée 
de la réalité et tout l’art de la simulation est de savoir quoi, où, 
quand et comment simplifier. 

L'exemple suivant permettra au lecteur de « prendre la mesure » 
de certains moments clés et de certaines « subtilités » qui se pré- 
sentent à l'analyste au cours de la procédure de simulation. 

Considérons une expérience dans laquelle chacune des n personnes 
testées doit lire un texte imprimé en caractères À et un texte de 
même complexité imprimé en caractères B. Dans les deux cas on 
note le temps t demandé par la lecture. Soient t£ (i, À) et t (i, B) le 
temps mis par la personne s pour lire les textes en caractères À et 
B respectivement. Cette situation peut être décrite par le modèle 
mathématique simple suivant : 


LE, A)=m(i) +Tts + Ei 
i—=1,2,. .,n, (3.1) 
ti, B=m(i)+ts+n:, 


où m(i) est une variable aléatoire *) figurant la vitesse de lecture 
de la personne à indépendamment des caractères, Tt, et T4, sont des 
constantes dépendant uniquement des caractères, E; et n, des erreurs 
aléatoires mutuellement indépendantes de moyenne 0 et de variance 
commune 6°. Les quantités du second membre de l'équation (3.1) 
sont plus grandes que celle du premier. Ceci exprime qu'il est impos- 
sible d'estimer les principales caractéristiques numériques des 
quantités m (i), Ta, Te E1 et ni à l’aide des observations {{ (i, À), 
ti, B)};=1,...n. Bien plus, même si £; et n; ne figurent pas 
dans le modèle, c’est-à-dire dans le cas où le premier membre com- 
prend 2n quantités et le second, r + 2, on ne peut trouver les prin- 
cipales caractéristiques numériques de m; (i = 1, 2, ..., n) sans 


*) Les notions de variable aléatoire et de ses principales caractéristiques 
numériques (moyenne, variance, etc.) sont introduites au chapitre 5. 
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poser de conditions subsidiaires sur t,, th. (Dans de tels cas, on 
dit parfois que le modèle est non mesurable par rapport aux données 
expérimentales.) Mais si le problème]posé consiste seulement à com- 
parer la vitesse moyenne de lecture des deux textes, alors la non- 
mesurabilité du modèle cesse d’être un obstacle. En effet, la variable 
aléatoire 


ti) =t(, A)—t(i, B)= TA — 718 + bi — 1: (3.2} 


a une moyenne strictement positive si les caractères B sont plus 
commodes à lire que les caractères À, et une moyenne strictement 
négative, dans le cas contraire. L’estimation de la différence +, — 
— Tr basée sur les valeurs de t (i) ne pose pas de problème. De 
façon analogue, si l’on avait à caractériser le degré de dispersion 
aléatoire de la vitesse de lecture de chaque personne (c’est-à-dire à 
estimer la variance V m (i); la définition et le calcul de V sont donnés 
aux chapitres 5 et 8), on aurait pu calculer la variance des variables 
aléatoires 


+ (ti, A)+t(i, B)=m(i)+(ta+te)/2+(Ei+ni)/2 (3.3) 


et en soustraire la quantité o°/2 qui définit la contribution des er- 
reurs aléatoires dans le modèle (3.3). Ici on estime la variance de m (i} 
sans déterminer m (i) pour chaque i, mais en utilisant le fait que +, 
et TA, sont des constantes. 

Donc, les différentes variantes du modèle (3.1) nous permettent 
de tenir compte: de la différence des vitesses de lecture; de la diffé- 
rence entre la vitesse moyenne de lecture des caractères À et B;: du 
caractère aléatoire du temps mis par la personne testée pour lire le 
texte. Mais ce modèle néglige la dépendance éventuelle de la diffé- 
rence T1 — T# par rapport à la vitesse de lecture m (i) de à et à 
l’ordre dans lequel sont lus les textes. Par ailleurs, l'hypothèse de la 
constance de la variance 0* des erreurs aléatoires simplifie l'analyse. 
Il est évident que pour étudier plus en détail la durée, il aurait fallu 
un modèle plus compliqué qui reflétôt les dépendances signalées. 
Mais, s’il s’agit seulement de comparer les vitesses moyennes de 
lecture des textes en caractères différents, le modèle (3.2) remplit 
bien cette fonction: il suggère une méthode assez efficace d'analyse 
des données en rejetant une autre approche (trop naïve) préconisant 
d'abord une moyennisation séparée des données par rapport à cha- 
que caractère: 


EC, 4)= DE, Ajn: t(+, B)= ZE, Bjr, (3.4) 
i 
et ensuite une comparaison des moyennes t (-, A)et t (+, B) obtenues 


soi-disant par deux séries indépendantes d'observations (cette com- 
paraison peut être conduite, par exemple, à l’aide de la loi de Stu- 
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dent, cf. n° 11.2.8). La dernière méthode peut en pratique s'avérer 
peu efficace pour mettre en évidence la distinction existant entre 
les caractères À et B, car les observations f (ë, À) et t (i, B) sont en 
fait étroitement liées à cause de la valeur commune mm (i). 

Le modèle mathématique est à certains égards pour l'analyste ce 
que le laboratoire est pour le physicien. Il peut se livrer à des expé- 
riences sur le modèle mathématique, et si celui-ci reflète bien la 
réalité, alors il applique les résultats des expériences au monde réel. 

Quand on dit qu’un modèle convient à la description de la réali- 
té, on entend par là qu’il est possible de s’en servir comme point de 
départ pour choisir la meilleure méthode de traitement statistique 
des données initiales ainsi que pour la résolution de problèmes tels 
que la planification, les prédictions, la commande optimale de sys- 
tèmes et de processus, l'estimation de l'efficacité du fonctionnement 
{ou la caractérisation de la qualité) d’un système complexe, les diag- 
aostics (en médecine et technique), la normalisation. 


3.2. Schéma logique général et principales étapes de 
modélisation mathématique 


3.2.1. Principales étapes de modélisation. Au cours de la premiére 
étape il faut définir: les objectifs finals de la modélisation; les 
facteurs et les variables aux interdépendances desquels on s’inté- 
resse ; enfin, le rôle de ces facteurs et variables, plus exactement, les- 
quels d’entre eux peuvent être considérés dans le problème étudié 
comme variables d'entrée (c'est-à-dire susceptibles d’être régulari- 
sées totalement ou partiellement ou, à la rigueur, être facilement 
‘enregistrables et prévisibles; ces facteurs sont explicatifs), lesquels, 
comme variables de sortie (l'objectif final de l'analyse; ces facteurs 
sont en général difficilement enregistrables ou prévisibles et sont 
à expliquer). Si l'information statistique initiale n’a encore pas été 
recueillie, sa collecte est incorporée dans la première étape. Ainsi, 
dans l'exemple des caractères À et B, les diverses variantes des 
objectifs finals mettent en jeu des ensembles différents de facteurs 
analysés (type des caractères, la personnalité du testé) et de va- 
riables (d'une collection redondante de 3x + 2 variables dans le 
modèle (3.1) on passe à 2 variables moyennisées dans (3.4)) en ré- 
partissant simultanément de manière différente les rôles entre eux. 

Dans la deuxième étape on passe à la postulation, la formalisation 
mathématique et si possible à la vérification expérimentale des hy- 
pothèses de base concernant la nature et les propriétés physiques de 
l'événement analysé (étape d'élaboration de l'information initiale). 
Si les hypothèses adoptées ne peuvent pour une raison ou une autre 
faire l’objet d’une vérification expérimentale, il faut alors les asseoir 
par des raisonnements théoriques sur le mécanisme de l'événement 
étudié (elles peuvent, par exemple, être reconnues par les experts de 
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la discipline utilisatrice — économie, sociologie, technique, méde- 
cine, etc. — comme étant des lois objectives particulières). Ainsi, 
en construisant les modèles (3.1) à (3.4) nous sommes partis des 
conditions suivantes qui de prime abord semblent naturelles mais 
dont la validité est discutable: les composantes aléatoires E; et 1: 
(les « erreurs d’enregistrement ») sont mutuellement indépendantes; 
les caractéristiques de la vitesse de lecture m (i) des testés ne dépen- 
dent pas de la nature des caractères ; la différence T1 — t,, ne dépend 
pas de l’ordre de lecture des textes, etc. 

La troisième étape est l’étape de modélisation proprement dite, 
car elle comprend la déduction (d’après les hypothèses de base adop- 
tées et confirmées en partie expérimentalement) de la forme générale 
des relations de fonctionnement qui lient les variables d'entrée et de 
sortie sélectionnées. Par détermination de la forme générale des rela- 
tions de fonctionnement on entend la détermination, au niveau de 
cette étape, seulement de la structure du modèle, de sa représenta- 
tion analytique symbolique, représentation dans laquelle conjointe- 
ment aux valeurs numériques connues (figurées par les données 
statistiques initiales) participeront des variables dont la significa- 
tion physique est connue mais pas les valeurs numériques (les para- 
mètres inconnus du modèle qui feront l’objet d’une estimation sta- 
tistique). 

Dans l'exemple des caractères À et B la déduction des relations 
de fonctionnement (3.1) à (3.3) est triviale : elles résultent immédia- 
tement des hypothèses et notations adoptées (en fait, ce n’est pas 
toujours le cas; cf., par exemple, la déduction des relations de fonc- 
tionnement décrivant le mécanisme des rapports distributifs dans 
la société dans {3]). Les premiers membres de ces relations contien- 
nent des nombres connus (les données initiales), les seconds membres, 
les paramètres inconnus du modèle qui doivent être estimés statisti- 
quement. 

La quatrième étape ou étape d'analyse statistique du modèle est 
consacrée à la résolution du problème du meilleur choix, c’est-à-dire 
à l'estimation statistique des paramètres inconnus figurant dans la 
représentation analytique du modèle, et à l’étude des propriétés et 
de la précision des estimations obtenues. Ce problème se résout entiè- 
rement par les méthodes de traitement statistique des données. 

Dans la cinquième étape ou étape de vérification du modèle, on 
applique diverses procédures de comparaison des conclusions et des 
estimations établies sur le modèle avec la réalité étudiée. Cette étape 
s'appelle aussi étape d'analyse statistique de l'adéquation du modèle. 

La sixième étape est facultative en ce sens qu’elle dépend des 
résultats de l'étape précédente. Elle consiste en la planification et la 
réalisation de recherches destinées à améliorer le modèle et, en par- 


ticulier, à approfondir la deuxième étape qui est capitale à certains 
égards. 


4—0273 
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3.2.2. Modélisation du mécanisme d’un événement au lieu d’une 
photographie statistique formelle. Arrêtons-nous plus en détail 
sur l'aspect capital de la deuxième étape. On affirme que l'adéquation 
et partant l'efficacité du modèle dépendent essentiellement de la 
profondeur et de la qualité de l’analyse de l'essence réelle de l'événe- 
ment étudié pendant la collecte de l’information initiale (c'est-à-dire 
dans le cadre de la deuxième étape). En d'autres termes, lors de la 
modélisation probabilisto-statistique et, en particulier, lors de la 
collecte de l'information initiale sur la nature physique du méca- 
nisme de transformation des variables d'entrée en variables de sortie, 
une partie de ce mécanisme échappe à l'analyste (cette partie est appe- 
lée « boîte noire » dans le langage des cybernéticiens). Plus l’analyste 
connaîtra à fond les mécanismes de fonctionnement du système 
étudié, plus il réduira la place occupée par la « boîte noire» dans 
le schéma logique général et plus le modèle construit sera opération- 
nel et précis. Une modélisation basée entièrement sur la logique de la 
« boîte noire » ne permet à l’analyste d'obtenir qu’une sorte de photo- 
graphie statistique instantanée de l’événement étudié, qui en général 
est inapte par exemple aux prévisions. Au contraire, une modélisa- 
tion bénéficiant d’une analyse ex professo de la nature de l'événement 
étudié facilite grandement la justification théorique de la forme géné- 
rale du modèle construit et permet donc de l'appliquer largement au 
SE des prévisions. Expliquons cette situation sur un exemple du 

1: 
Supposons que l’on se fixe pour objectif la description lacon:que 
(paramétrée à l'aide d'un modèle) de la densité d’une variable aléatoi- 
re (représentant le salaire mensuel d’un employé pris au hasard dans 
une population générale) d’après les données initiales concernant un 
échantillon aléatoire d'employés x, ze, + -, Z:50 de taille 7 — 750. 
Si l’on néglige les lois économiques qui régissent la loi de répartition 
cherchée, c'est-à-dire si l’on s’en tient à la solution formelle du meil- 
leur instantané statistique, on doit garder en réserve une classe assez 
vaste de densités modèles (par exemple, la classe des courbes de 
Pearson [76] comme ceci a été fait, en particulier, dans [28]) et étu- 
dier successivement ces modèles (en soumettant simultanément les 
paramètres de leurs relations de fonctionnement à une estimation 
statistique par les méthodes décrites au chapitre 8) pour dégager la 
densité qui approche le mieux selon un certain critère (par exemple, 
le critère du « khi-deux » de Pearson, cf. $ 11.1) le comportement de 
la densité empirique (cf. représentation de l’histogramme correspon- 
dant sur la figure 6.1, page 139). Sur cette voie on peut, moyennant 
une extension de la classe des densités modèles hypothétiques, attein- 
dre une très haute précision d’approximation, voire même la répéti- 
tion, par la densité modèle, des creux inattendus de l'histogramme 
du genre de ceux observés sur les 14€ et 15° intervalles de groupement 
de la figure 6.1. Mais en procédant ainsi, on obtient un résultat qui 
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n’est bon qu’en apparence, ce dont on s'assure sans peine en appli- 
quant la loi modèle mise en évidence à la description de la densité 
empirique construite à l’aide d’un autre échantillon parent. Dans la 
grande majorité des cas, la densité modèle antérieure est inapte à 
décrire les lois de répartition observées dans un autre échantillon. 
Pour cet échantillon, il faut donc construire un autre modèle, ce qui 
vide la modélisation de sa substance, puisque la raison d’être d’un 
modèle est de généraliser les lois dégagées d’un échantillon à la po- 
pulation générale tout entière (tel est le cas dans les problèmes de 
planification, de prédiction, de diagnostic). 

Une démarche opposée consiste à procéder préalablement à une 
analyse minutieuse et compétente des lois locales régissant la répar- 
tition du salaire mensuel. Ces lois (le caractère multiplicatif de la 
réduction du travail, le principe de rémunération en fonction du 
travail accompli, la constante du coefficient de variation du salaire 
lorsqu'on passe d’une catégorie d'employés à une autre, etc., cf. [3]) 
permettent dès l'étape suivante (la troisième) de la modélisation de 
justifier théoriquement (c’est-à-dire sans recourir à la densité empiri- 
que) le choix de la classe de modèles dans laquelle on cherchera la 
densité modèle. Dans l'exemple considéré, cette classe est la classe 
des distributions log-normales (cf. n° 6.1.6). On passe ensuite à 
l'estimation statistique des paramètres qui ont servi à décrire les 
lois de cette classe, c'est-à-dire à la quatrième étape. 

Le modèle ainsi acquis approche en général plus mal (selon des 
critères formels) que le précédent la densité empirique construite 
d'après l'échantillon donné. Mais contrairement au modèle obtenu à 
la suite d’un ajustage statistique formel des données expérimentales 
sur une courbe théorique, il est invariant par tout changement d'échan- 
tillon, autrement dit, il décrit indifféremment bien le caractère de la 
distribution observée pour divers échantillons parents. Que dire 
d'une simulation basée sur des hypothèses plus ou moins crédibles 
(éventuellement, confirmées par l'expérience) sur la nature de l’évé- 
nement étudié, qui donnerait des résultats s'accordant mal avec la 
réalité? La cause de ce désaccord est unique (sous réserve, bien sûr, 
que les troisième et quatrième étapes aient été conduites avec soin): 
violation de tout ou partie des hypothèses de base adoptées. Deux 
cas peuvent se présenter: si les hypothèses de base sont reconnues 
par les experts comme étant des lois objectives gouvernant le fonc- 
tionnement du mécanisme de l’événement étudié, alors il faut loca- 
liser et éliminer les causes de la violation de ces lois; si, au contraire, 
les hypothèses de base sont le résultat de la simplification forcée d’un 
mécanisme mal appréhendé, il faut améliorer ces hypothèses, ce qui 
nécessitera naturellement une modification du modèle. Dans l’exem- 
ple considéré, l'interprétation du désaccord provisoire entre le mo- 
dèle et la réalité est du premier type. Les comparaisons des données 
fournies par les modèles et des données expérimentales sur la distri- 
ke 
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bution du salaire sur plusieurs années (1956-1972, cf. [3]) ont nette- 
ment mis en évidence une période de profond désaccord (1960-1963). 
Mais à mesure que l’on remonte dans le temps, on constate une ten- 
dance manifeste au rapprochement de ces données. Une analyse plus 
poussée a montré que ce désaccord faisait suite à une ingérence auto- 
ritaire dans le régime salarial, une ingérence qui, comme l’a montré 
l'avenir, a été contestée par de nombreuses lois économiques objecti- 
ves. Et le fait que par la suite on assiste à nn rapprochement des don- 
nées réelles et des données modèles est significatif d’une chose, que 
ces lois économiques objectives ont pesé progressivement sur le ca- 
ractère de la distribution, ont commencé à jouer davantage en s’éri- 
geant en lois juridiques. 

Les exemples de modélisation non formelle (mettant en évidence 
le mécanisme de l'événement étudié) ne sont malheureusement pes 
très nombreux (cf. [3], [80], etc.). 


3.3. Notion de simulation statistique 


L’étude d’un modèle probabiliste peut être conduite de deux façons: 
par les méthodes mathématiques de la théorie des probabilités et de 
statistique mathématique et par la reproduction du fonctionnement 
de ce modèle sur ordinateur. Le second procédé s’appelle simulation 
statistique. Pour certains auteurs ([30], [51]), ce terme recouvre une 
idée plus large: il comprend en plus la réduction de problèmes tra- 
ditionnels de calcul numérique à des modèles probabilistes par simu- 
lation sur ordinateur. Bien que cette interprétation augure d’impor- 
tants et intéressants développements, nous nous bornerons à la pre- 
mière définition, plus étroite, de la simulation statistique. 

La simulation statistique est un puissant outil de manipulation 
des modèles probabilistes à toutes les étapes de la recherche. En théo- 
rie des files d’attente, par exemple, c’est la principale méthode de 
résolution des systèmes complexes [30]. En statistique classique, 
c'est l’une des méthodes d’étude de la stabilité des estimations par 
rapport aux fluctuations des hypothèses de base, une méthode utili- 
sée seule ou conjointement à des méthodes analytiques asymptotiques. 
Si le modèle de l'événement étudié est relativement compliqué, la 
simulation statistique peut aider à déterminer la taille des échantil- 
lons principal et de contrôle. Elle est également largement appliquée 
pour étudier les limites tolérables des écarts entre les hypothèses 
adoptés pendant la construction d’un modèle et la réalité. Les pers- 
pectives offertes par la simulation statistique dans l'analyse des 
modèles probabilistes sont si riches que d'ores et déjà elles rendent 
indispensable la justification de l’appareil analytique traditionnelle- 
ment utilisé pour leur construction et l’étude de leurs propriétés. Au 
$ 6.3 figure une brève description d’une technique de simulation 
statistique d'observations suivant une loi de probabilité donnée. 
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3.4. Objections contre les modèles mathématiques 


A l'heure actuelle les modèles mathématiques ont reçu leurs 
lettres de noblesse dans de nombreux domaines des sciences et des 
techniques. Mais certains esprits, notamment des médecins, des 
sociologues, des économistes, affirment encore que les phénomènes étu- 
diés sont par trop complexes pour être adéquatement exprimés par des 
méthodes mathématiques. Sans nier les traits spécifiques et la comple- 
xité des phénomènes étudiés par ces corps de spécialistes, il faut 
affirmer avec conviction qu’il n’y a pas de substitut au langage des 
modèles mathématiques et à la simplification et la schématisation 
de la réalité qu'ils nécessitent. Mais ce qui tient les rênes courtes 
aux chercheurs est moins dans les performances de l'appareil mathé- 
matique que dans les capacités de l’homme à maîtriser les situations 
complexes. En effet, à quoi bon concevoir des modèles mathémati- 
ques sophistiqués si nous re pouvons en « digérer » les fruits Une 
solution qui permet d'éviter les extrêmes simplifications des phéno- 
mènes étudiés consiste à envisager plusieurs modèles à la fois, cha 
cun de ces modèles pouvant être regardé comme un cas particulier 
d’un modèle plus général nécessaire pour décrire la réalité de façon 
adéquate. 

La deuxième objection contre l'implantation des modèles probabi- 
listes dans les sciences étudiant le comportement de l’homme est le 
fait d’une interprétation erronée du rôle des probabilités dans les 
modèles. Une partie des savants inclinent encore à penser que consi- 
dérer l’homme comme représentant d’une population générale, com 
me un individu dont les réactions sont décrites par des lois probabi- 
listes, reviendrait à le priver de sa personnalité et de sa liberté de 
choix. De fait, c’est justement la personnalité de l’homme et l’im- 
prévision de son choix qui plaident pour une description de son com 
portement en termes probabilistes. L'usage des probabilités pour 
décrire un modèle ne veut nullement dire que chaque individu définit 
son propre comportement à l’aide d’un générateur de nombres aléatoi 
res. Cela signifie tout simplement que le comportement d’un groupe 
donne l’impression que les individus utilisent effectivement des gé- 
nérateurs de nombres aléatoires. La fonction des notions probabilis- 
tes est de décrire les variations des réactions. Rien de commun donc 
avec la restriction des libertés de choix, ou la contrainte de la per- 
sonnalité des sujets étudiés. La seule alternative à l'approche proba- 
biliste est l’approche déterministe, or c’est justement elle qui prive 
l'homme de son individualité. Les modèles déterministes décrivant 
de façon simplifiée le comportement d’un individu sont très « ren- 
tables » dans l'analyse des événements de masse. Atitre d'exemple, 
citons les recherches effectuées pour construire un modèle de propaga- 
tion d’une épidémie de grippe [17]. 
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L’implantation massive des ordinateurs est à l’origine de la 
troisième objection, la plus perfide semble-t-il dans la mesure où elle 
vise non pas les modèles proprement dits mais l’adéquation de leur 
étude par les méthodes mathématiques. Est-il besoin d'accomplir un 
travail de bénédictin, d'étudier des modèles spéciaux en théorie des 
files d'attente, alors que la modélisation statistique répond à toute 
question plus vite et à moindre frais? S'il s’agit d'obtenir simple- 
ment une réponse à un cas particulier, la modélisation statistique est 
la meilleure méthode. Mais, si l’objectif est la solution générale et la 
connaissance à fond du phénomène étudié, alors la modélisation sta- 
tistique manque de souffle. Une conclusion résumée par une formule 
claire et simple justifie tous les efforts déployés sur le plan théori- 
que même lorsqu'on est contraint à des simplifications pendant la 
construction et l'étude du modèle. 


3.5. Types de modèles mathématiques les plus souvent 
utilisés en statistique appliquée 


3.5.1. Modèles des lois de probabilité de variables aléatoires. La 
notion de loi de probabilité d'une variable aléatoire est abordée au 
$8 5.4. Par variable aléatoire on entend une variable recouvrant une 
certaine idée physique, dont les valeurs sont affectées d’une disper- 
sion incontrôlable lors de la répétition de l’expérience étudiée ou des 
observations (cf. $ 5.1). Connaître la loi de probabilité d’une variable 
aléatoire, c’est pouvoir associer à n'importe laquelle de ses valeurs 
éventuelles (ou à n'importe quel domaine de ses valeurs éventuelles) 
la probabilité d'apparition de cette valeur (ou la probabilité qu'elle 
prenne une valeur de ce domaine). 

L'analyse statistique commence en principe par l'analyse de la 
loi de probabilité de la variable aléatoire considérée, par la construc- 
tion d’un modèle de cette loi. Au chapitre 6 sont décrites les lois de 
probabilité les plus couramment utilisées dans les recherches statisti- 
ques. 


3.5.2. Modèles probabilistes linéaires. Les’ modèles de rêgres- 
sion linéaire émergent du lot de modèles décrivant la dépendance des 
variables aléatoires. Ils sont généralement de la forme 


Y=Xx0+e, (3.5) 


où Ÿ = (y,, ..., y,) est le vecteur 7-dimensionnel des observations; 
X une matrice du plan connue de dimension p X n; @ = (0,, ... 
-.., 8,) un vecteur des paramètres p-dimensionnel inconnu; & un 
vecteur colonne aléatoire r7-dimensionnel vérifiant la condition 


E (e) = 0, E (ee') = ol, (3.6) 
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où 0° est un paramètre scalaire inconnu, E le symbole de l’espérance 
mathématique (cf. n° 5.6.1). Souvent y;, i = 1, ..., n, sont inter- 
prétés comme les observations de la variable prédictante (la réponse) 
au point À; = (x, ..., z{P))" de l'espace des observations. 
Montrons tout d’abord que le modèle des caractères À et B étudié 
ci-dessus (cf. $ 3.1) peut être traité comme un cas particulier d'un 
modèle linéaire général. Pour cela posons 06; = m (i), i = 1, 2, . .. 
cs 3 On+a = TAÿ On+te = Tri Yi = t(i, À), yaris =t(, B). 
Les équations (3.1) peuvent être mises sous la forme (3.5) à l’aide 
d'une matrice X de dimension (n + 2) X 2n telle que 


100...0010 


L'hypothèse nulle dans cette paramétrisation consiste à vérifier 
l'égalité 0,4, = 0h40 

Comme autres cas particuliers du modèle (3.5), (3.6) signalons: 

a) le modèle de régression linéaire du premier ordre qui met en jeu 
un seul prédicteur quantitatif (un facteur). Lorsque ce prédicteur est 
égal à x, la variable prédictante (ou réponse) est égale à 


y =06 +0,r+e; (3.7) 

b) le modèle d'analyse de variance monofactorielle qui fait inter- 

venir un prédicteur (qualitatif) à / modalités et n, observations in- 
dépendantes de chaque modalité: 

Yi = 00 + 0 + ep É = Also. ls k=1Â,..., nr (3.8) 


Pour que ce modèle admette une solution, il faut conjecturer en plus 


l 
que 2 8, — 0. On s'intéresse le plus souvent à la question de savoir 
i= 


si tous les 64,4, à = 1, ..., n, sont nuls: 

c) le modèle d'analyse bifactorielle. Le nom lui-même indique 
qu'on a affaire à deux prédicteurs (qualitatifs). La réponse à la i-ième 
composante du premier prédicteur et à la j-ième du second est de la 
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forme 
Yy = + ai + B; + es RS PR j=1,...,m, 
où les prédicteurs doivent satisfaire les conditions subsidiaires 


Da =0, > B; = Oet Ë;; sont des erreurs indépendantes de même 
loi de probabilité. Les hypothèses les plus souvent vérifiées sont : 
Lis: ad; 0; Bi = - is hp; = (. 

Les modèles linéaires sont bien étudiés, cf. par exemple, [114], 
117]. 


3.5.3. Généralisation des modèles linéaires. Décrivons les deux 
desserrements des hypothèses adoptées dans le modèle (3.5), (3.6), 
les plus couramment utilisés. Ces desserrements permettent de rendre 
le modèle plus conforme à la réalité. 

1. La fonction décrivant la dépendance de la réponse y par rapport 
aux variables À n'est pas linéaire en les paramètres ©. Cela exprime 
que la variable y observée est une fonction des variables observées 
X = (x), 2°), ..., x))" et des paramètres inconnus ©, soit 


Y=Y(E, X)+e. (3.9) 


Le vecteur des erreurs aléatoires est soumis à des contraintes de 
la forme (3.6). Ces modèles font recette dans l’étude des phénomènes 
économiques, physiques, chimiques, etc., dont le mécanisme de fonc- 
tionnement n’est pas linéaire. L'analyse des modèles (3.9) passe 
généralement par la linéarisation de 1Ÿ au voisinage des valeurs pré- 
visibles de 6 et l'étude du modèle linéaire ainsi obtenu par la mé- 
thode des moindres carrés (cf. $ 8.6). 

2. La dispersion de l'erreur dépend des paramètres à estimer. Ce 
desserrement des hypothèses imposées au modèle est dicté comme 
plus haut par des considérations propres à la discipline utilisatrice. 
Pour estimer les paramètres, on se sert le plus souvent de la méthode 
du maximum de vraisemblance (cf. n° 8.6.1). Le système des équa- 
tions du maximum de vraisemblance se résout itérativement par des 
linéarisations successives. À chaque itération le poids des observa- 
tions est considéré comme un nombre donné qui est défini par la 
valeur des paramètres à l’itération précédente. 

Dans les modèles linéaires, la matrice X est supposée connue et 
fixe. Mais dans certaines recherches statistiques, telles les mesures 
des trajectoires de particules élémentaires en physique, l’enregistre- 
ment des composantes de réactions chimiques complexes, etc., les 
valeurs des variables X ne peuvent être strictement fixées et doivent 
être considérées comme les moyennes inconnues de variables aléatoi- 
res obéissant à une certaine loi de probabilité d’une mesure élémen- 
taire à l’autre. Dans ces conditions, la séparation du rôle des varia- 
bles indépendantes zx et des variables dépendantes y du modèle 
devient inadéquate. Les deux suites (x;, y;) sont considérées comme 
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aléatoires, elles fusionnent en quelque sorte du point de vue de leur 
interprétation. Les modèles correspondants sont appelés, suivant 
Frisch, modèles confluents et les méthodes qui les étudient, méthodes 
de l'analyse confluente. 

Voici un exemple élémentaire de modèle confluent : on observe 


des couples (71, y;) tels que 


D = + Es Yi = Yi + ii Vi = @ + bzs, (3.10) 


où zy, y: sont les valeurs vraies inconnues des variables; a et b les 
paramètres inconnus reliant les variables x et y; €;, Ô, des erreurs 
aléatoires indépendantes normales, de moyenne nulle et de variances 
connues. 

Parfois l’analyse confluente est appelée analyse des relations 
structurales à cause de (3.10). 


3.5.4. Modèles géométriques. Dans la confection sur mesure 
d’une robe il faut prendre plus d’une quinzaine de mesures de la 
cliente. Mais ces mesures ne sont pas toutes de la même importance 
pour la qualité de l’article, ce qui permet de se limiter à quatre 
d’entre elles dans la confection en série: la taille, le tour de poitrine, 
le tour de taille, le tour de hanches. Essayons d'interpréter ce fait 
géométriquement. A cet effet, on représentera le vecteur des mesures 
d’une femme par un point d’un espace R? (p > 10) à p dimensions 
et on considérera l’ensemble des points figurant une importante 
population de femmes. Ces points ne sont pas répartis de façon uni- 
forme dans l’espace À? et sont groupés autour d'une surface à qua- 
tre dimensions dont chaque point peut être caractérisé par quatre 
des dix mesures de base. Les modèles géométriques servent précisé- 
ment à décrire des situations dans lesquelles il est possible de déga- 
ger dans l’espace des mesures de base une surface de moindre dimen- 
sion autour de laquelle sont groupés les points initiaux. On peut en 
dire autant des modèles linéaires. Mais la classe des modèles géométri- 
ques est plus vaste et l’on a élaboré des méthodes spéciales pour * 
l’étudier (cf. $ 10.5). Par ailleurs, le premier examen des données 
dans le but de dégager leurs principales tendances de variation pré- 
cède généralement la construction de modèles paramétiriques, y com- 
pris de modèles linéaires. 

Un modèle géométrique élémentaire est de la forme 


X=A+L+E, AGV,, EE = 0, (3.11) 


où X est le vecteur p-dimensionnel des observations initiales, À un 
vecteur p-dimensionnel aléatoire dont on sait seulement qu'il appar- 
tient à une surface V, de dimension intérieure r << p et E un vecteur 
aléatoire p-dimensionnel décrivant l'écart de À par rapport à V,. 
Souvent, on admet encore que E (£”, €) est petite en regard de l’éten- 
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due de À sur V,. Le modèle (3.11) présente de nombreux traits spé- 
cifiques : 

1) on n’exige pas que = varie uniquement dans une direction 
perpendiculaire à V,; 

2) aucune condition n'est posée quant à la forme de Ÿ,. On au- 
rait pu admettre, par exemple, que V, est une hypersurface à r di- 
mensions ; 

3) la disposition des vecteurs À sur V, n’est soumise à aucune con- 
dition. On peut, par exemple, supposer que les vecteurs À sont con- 
centrés sur plusieurs ellipsoïdes isolés à r dimensions, etc. 

Comme cas particulier du modèle (3.11), on peut considérer le 


modèle (3.10). Dans ce cas, p = 2, r = 1, X — (z, y), V, est con- 
fondue avec la droite y = a + bzx, et & est le vecteur (e, à)’. 


3.9.2. Modèles markoviens. En sociologie, économie, méde- 
cine, démographie, on utilise largement les modèles décrivant la 
dynamique d'indices économiques et sociaux au moyen des proba- 
bilités de passage d’une structure du système réel étudié à une autre. 
On exploite ici l’appareil des chaînes de Markov discrètes et conti- 
nues avec une paramétrisation linéaire et non linéaire des probabili- 
tés de passage [18], [126]. Les modèles envisagés sont très complexes 
et leur analyse implique souvent une approche individuelle et beau- 
coup de doigté dans la manipulation des principes fondamentaux 
de la statistique mathématique. 


Conclusions 


1. Les modèles probabilisto-statistiques sont un puissant instru- 
ment de description qualitative des relations liant les phénomènes 
et faits observés, d'étude des propriétés des systèmes envisagés, de 
choix d’un appareil statistique adéquat pour le traitement des don- 
nées et l’organisation de la collecte des données. 

2. Les modeles probabilisto-statistiques sont étudiés aussi bien 
avec l'arsenal traditionnel de la statistique mathématique qu'avec 
la simulation statistique qui consiste à simuler sur ordinateur le 
fonctionnement du modèle. 

3. Tout modèle mathématique est une représentation simplifiée ‘ 
de la réalité et tout l’art du chercheur est de conjuguer la paramétri- 
sation la plus laconique du modèle à une description assez adéquate 
de la réalité, en d’autres termes, il doit « compresser » au maximum 
la réalité dans une forme mathématique simple. 

4. La procédure de modélisation peut être conventionnellement 
partagée en six étapes principales: première étape — définition des 
objectifs de la modélisation, des variables du modèle et de leur rôle; 
deuxième étape — analyse de la nature physique du phénomène 
étudié, collecte et formalisation de l’information initiale; troisième 
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étape — modélisation proprement dite (détermination de la forme 
générale du modèle); quatrième étape — analyse statistique du mo- 
dèle (estimation des paramètres participant à la description du 
modèle); cinquième étape — vérification du modéle; sixième étape 
(facultative) — précision du modèle et notamment retour à la deu- 
xième étape. 

5. Une condition sine qua non du bon fonctionnement d’un modèle 
est la réalisation de la deuxième étape de la modélisation, c’est-à- 
dire la réalisation d’une analyse minutieuse de la nature du phéno- 
mène étudié afin de recueillir une information initiale de bon aloi 
et d’en tirer le meilleur parti pour la déduction (ou le choix) de la 
forme générale du modèle cherché. La contre-approche forcée (mais 
indésirable) est la logique de la « boîte noire », c’est-à-dire une appro- 
ximation purement formelle des données réelles. 

6. Les modèles mathématiques les plus couramment utilisés 
dans les applications statistiques sont : les modèles des lois de pro- 
babilité : les modèles linéaires décrivant le caractère et la structure 
des relations entre les variables analysées (notamment les modèles 
de régression, d’analyse de variance, les modèles d'analyse factorielle 
et de séries temporelles, cf. par exemple [114]); les modèles marko- 
viens décrivant les lois des passages aléatoires d'objets d’un état à 
un autre; les modèles géométriques qui permettent de visualiser les 
données multidimensionnelles initiales (cf. $ 10.5). 

7. Ces deux dernières décennies, grâce aux performances des 
ordinateurs, l'analyste ne s’en tient plus qu’aux modèles facile- 
ment résolubles, il peut envisager diverses généralisations de modèles 
linéaires reflétant la réalité de façon plus adéquate. Dans l'analyse 
mathématique des modèles, on constate une tendance à éviter toute 
relation linéaire entre l'espérance mathématique du vecteur d'’ob- 
servations Ÿ et les paramètres 6 du modèle; à faire dépendre la va- 
riance de la réponse des valeurs des paramètres; à renoncer à une 
matrice X dont les éléments sont supposés connus à une erreur aléa- 
toire près. L'’estimation des paramètres du modèle passe par la ré- 
solution des équations du maximum de vraisemblance. 


DEUXIÈME PARTIE 


FONDEMENTS MATHEMATIQUES DE LA THÉORIE 
DES PROBABILITÉS 


CHAPITRE 4 


OPÉRATIONS SUR LES ÉVÉNEMENTS ALÉATOIRES 
ET LES PROBABILITÉS DE LEUR RÉALISATION 


4.1. Espace probabilisé discret 


4.1.1. Expérience aléatoire. Quand on élabore une théorie, on 
doit tout d’abord s’entendre sur les définitions de certaines notions 
et sur l'adoption d’hypothèses sans démonstration (axiomes). La no- 
tion liminaire dela théorie des probabilités est la notion d’expérien- 
ce aléatoire. On appelle expérience aléatoire l’observation réalisée 
sur une unité de la population analysée dans les conditions d’en- 
semble statistique. La teneur de cette notion conditionne l’appareil 
mathématique utilisé pour la résolution du problème posé. Dans le 
cadre d'un même problème, la notion d'expérience aléatoire s'interprète 
différemment selon les objectifs finals. Ainsi, quand on contrôle des 
pièces d’après le principe binaire (on entend par là que la pièce 
testée est jugée ou bonne ou mauvaise), cette notion admet au moins 
trois interprétations : a) contrôle d’une seule piece; b) contrôle d’un 
lot (d’un échantillon) de W pièces; c) contrôle de deux lots (échan- 
tillons) respectivement de W, et NV, pièces (échantillon double). Il est 
évident que la première variante donne lieu à deux issues seulement 
(bonne ou mauvaise); la deuxième à V + 1 issues possibles (0, ou 
1,ou2, ..., ou V pièces défectueuses) si l’on s’intéresse au nombre 
total de pièces défectueuses et non à l’ordre de leur mise en évidence; 
la troisième, dans la même approche, à (W, + 1) (VW, + 1) issues 
possibles (le résultat de chaque expérience aléatoire est donné dans 
ce cas par un couple de nombres (E, n), où E et n sont les nombres de 
pièces défectueuses trouvées dans le premier et dans le second lot). 

De façon exactement analogue, quand on analyse les résultats du 
lancement d’un dé, on peut comprendre par expérience aléatoire un 
jet (qui donnera lieu à six issues) ou une série d’un nombre donné de 
jets comme nous aurions dû le faire dans le cadre d’une formalisation 
rigoureuse de l’exemple du $ 2.2 (on établit sans peine que le nombre 
total d’issues possibles est égal à 64 — 1296). 

Il n’est pas toujours possible de calculer le nombre d'issues d’une 
expérience aléatoire. Toute expérience aléatoire impliquant la fixa- 
tion d'un paramètre quelconque de l’objet étudié, figurant une 
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quantité physique continue (température, pression, temps, poids, di- 
mensions, etc.) possède un ensemble d’issues *) qui a la puissance 
du continu. Au paragraphe suivant, on verra comment la théorie des 
probabilités a été généralisée à ce cas. 


4.1.2. Evénements aléatoires et opérations sur eux. On a déjà 
vu qu’à chaque expérience aléatoire était rattaché un ensemble d'is- 
sues possibles. Chaque issue s'appelle événement (ou issue) élémentaire, 
et l’ensemble de toutes les issues, espace des événements (issues) élé- 
mentaires ou espace fondamental. Ainsi, chaque expérience aléatoire 
donne obligatoirement lieu à un événement élémentaire et à un seul. 

Etudions pour l’instant le cas discret seulement, c’est-à-dire les 
situations où les événements élémentaires peuvent être numérotés 
par les nombres 1, 2, ..., n, ... En d’autres termes, l'espace des 
événements élémentaires (que nous désignerons par Q) n’est composé 
que d’un nombre fini ou dénombrable d'événements élémentaires 
(appelés wo, @o, - .- ., ©n, - - .). On note ceci 

Q = {o, Das °° +9 On) .) 
ou encore 


de Lou El 2 ss. (4.1) 

Voyons quelques exemples d'expériences aléatoires et d'espaces 
des événements élémentaires correspondants. 

Exemple 4.1. Lancemant d'uns pièce de monnaie: 

Q = {w, = face; w: = pile}. 

Exemple 4.2. Jet d'un de: 

Q = {o, = 1; © = 2; os = 3; ©, = 4; w, = 5; w, = 6}. 

Exemple 4.3. Série de quatre jets de dé: e. 
Q = {o, = (1, 1, 1, 1); © = (1, 1, 1, 2); ...,; 


4 


Oi998 — (6, 6, 6, 6)}. 
Exemple 4.4. Test (d’après le principe binaire) d’un article 
choisi au hasard dans un lot produit en série: 
= {w, = bon; w3 = mauvais}. 


Exemple 4.5. Test (d’après le principe binaire ) de V articles 
choisis au hasard dans un lot produit en série: 


Q — {w, = 0; Do = À; ...., © v+1 = NW}, 
où « est le nombre d'articles défectueux trouvés. 


. .*) On sait qu'un ensemble peut être fint (si ses éléments sont en nombre 
fini), dénombrable (si ses éléments peuvent être numérotés par les nombres 
1,2,...,n,..., tels l’ensemble des entiers, l’ensemble des rationnels, etc.) 


ou avoir la puissance du continu (tel l’ensemble de tous les points de la droite 
numérique, du plan, etc.). 
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Exemple 4.6. Test (d'après le principe binaire) de deux échan- 
tillons de W, et W, articles choisis au hasard dans une production en 
série : 
 — {@ a (O, 0); Do — (0, 1); 5 O(Ns+1) (Net1) = 

= (Vas Na)}. 


Exemple 4.7. Détermination du nombre «w de pannes de machi- 
nes-outils servies par une équipe prise au hasard: 


Q = {o, =0; ww =1;...; oh =nRr—1Â; nr =n;...}. 


Outre les événements élémentaires, nous aurons souvent à consi- 
dérer des événements composés. 

On dit qu’un événement C est composé (ou décomposable) si l’on 
peut indiquer au moins deux événements élémentaires wo, et w:, 
dont la réalisation de l’un d'eux entraîne celle de l’événement C. 
On exprime ceci en disant que « l’événement C est composé des évé- 
nements élémentaires w;, et w;, » et on note C = {os,, oi}. 

Dans le cadre de cette terminologie, on appellera événement aléa- 
toire À tout sous-ensemble {w;, &:;,, -.., Os .} de l’espace 
fondamental (4.1), soit 


A = {o:,, Dis + + 9 Oi,» . 53 


Ceci s'explicite comme suit : la réalisation de n'importe quel événe- 
ment élémentaire w:;,, ..., wi, « composant À » entraîne celle de 
l'événement À. 

Précisons cette terminologie sur les exemples envisagés ci-dessus. 

Dans l'exemple 4.2 les événements À, — {le numéro sortant est 
pair} et À, — {le numéro sortant est inférieur à 3}s’écrivent respec- 
tivement À, = {&, &4, O6} et Az = {O1 On O3} 

Dans |’ exemple 4.3, l'événement À = {le six sortira une fois au 
moins dans une série de quatre jets} sera composé de tous les vec- 
teurs w; à quatre dimensions dont l’une au moins des composantes 
est égale à 6 (ces vecteurs sont au nombre de 671). 

Dans l’exemple 4.5, l'événement À = {le nombre d’articles dé- 
fectueux est inférieur à 4} s'écrit visiblement À = {@, @>, @a, 4, 
&s 

a l'exemple 4.7, l'événement À — {le nombre de pannes de 
machines-outils servies par une équipe est strictement inférieur à 3} 
est de la forme À = {w,, ©:, ©: 

De la définition de la théorie ‘des probabilités (cf. $ 2.1) il s’en- 
suit qu'il faut en premier lieu convenir d’une certaine structure des 
relations entre les événements aléatoires ou, en d’autres termes, de 
certaines opérations sur les événements et d’une terminologie adéquate. 

Somme (union) d’événements. La somme des événements À,, 
A» - - -, AR est l'événement À (noté À = À, + A3 + ... + 4) 
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qui consiste en la réalisation de l’un au moins des événements 
A, A, - - -, An. Dans le langage des événements élémentaires, la 
somme des événements 4,, A», ..., A, se définit donc comme 
l'événement À composé de tous les événements élémentaires constituant 
les événements A,, A», .-.., Az. Si, par exemple, on s’intéresse 
à la somme À des événements 4, = {le nombre de pièces défectueuses 
est inférieur à 4} — {wo, @:, . .., w$} (cf. exemple 4.5) et 4, = 
— {le nombre de pièces défectueuses est compris entre 2 et 6 in- 
clus} = {o3, @4, Gs, We, w:}, alors de toute évidence À = À, + 
+ À, = {oy, @oe, - .., @s, @6, &:}, car la réalisation de l’événe- 
ment À sera signifiée par celle de l’un quelconque des événements 
Os - + O7 
Produit (intersection) d'événements. Le produit des événements 
A1, 4:, - -., A3 est l'événement À (noté À = 4,-A,: ... -+ A3) 
qui consiste en la réalisation simultanée de tous les événements 
A, 43, . -., A3. Dans le langage des événements élémentaires, le 
produit des événements À,, 4., ..., 4, se définit donc comme l’é- 
vénement À qui est composé des seuls événements élémentaires 
communs à tous les événements AÀ,, A,, ..., An. Ainsi (cf. exemple 
4.5), le produit des événements À, = £{o,, 2, - . ., w,} et À, — 
= {@3, ©, - - -, @} est visiblement l'événement À = 4,.4, = 
= {@,, &4,, &,}, puisque la réalisation de chacun des événements 
élémentaires w3, w, et w, séparément signifie de toute évidence la 
réalisation simultanée des événements À, et A4. 


Différence d’événements. La différence de deux événements 
A, et 4, est l'événement À consistant en la réalisation simultanée des 
deux faits suivants: l’événement À, s’est produit, l'événement 4, 
ne s’est pas produit. Dans le langage des événements élémentaires, la 
différence À = À, — À, des événements élémentaires À, et 4, se 
définit donc comme l'événement composé de tous les événements 
élémentaires figurant dans À, et pas dans 4,. Ainsi, la différence 
des événements À, = {@,, wo, . -., @} et À, = {oz 4, - .. 
-.., @;} de l'exemple 4.5 sera visiblement l'événement 4 — 4, — 
— À, = {w;,, w}, c'est-à-dire l'événement qui consiste en ce que 
Je nombre de pièces défectueuses est inférieur à 1. 

Evénement contraire (complémentaire). L'événement A (lire 
non À) contraire de À consiste en la non-réalisation de À. Dans le 


langage des événements élémentaires, À se définit donc comme l’évé- 
nement composé de tous les événements élémentaires ne figurant pas 
dans À. La notion de différence d'événements nous permet de noter 
ceci de la manière suivante: À — Q — 4. Ainsi, dans l'exemple 4.5, 
le complémentaire de l'événement À, = {@1, @e, - . ., w,} est de 
toute évidence l’événement qui consiste en ce que le nombre { des 
articles défectueux est strictement supérieur à 4, c'est-à-dire que 


À; — {@e, O7 ... © n}° 
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Evénement certain. C'est l'événement constitué de tous les 
événements élémentaires, soit Q = {w;}, à = 1, 2, ... (cf. (4.1)). 
Cet événement doit son nom au fait que l’espace des événements élé- 
mentaires est composé de toutes les issues possibles, autrement dit, 
l'expérience aléatoire analysée donne nécessairement lieu à un évé- 
nement élémentaire w;, et par suite le fait que Q a lieu est certain. 

Evénement impossible (vide) @. C’est l'événement contraire 
de l'événement certain, c'est-à-dire que 9 =  — Q — Q. La dé- 
nomination de cet événement résulte immédiatement de sa définition : 
cet événement ne contient aucun événement élémentaire w;, donc, l’expé- 
rience réalisée est impossible. 

Evénements incompatibles. Des événements 4,, 4,, ..., 4, sont 
incompatibles s’ils ne peuvent se produire simultanément deux à deux. 
Dans le langage des événements élémentaires, cela signifie que parmi 
les événements À,, 4,,...,4,il n'existe aucun couple À;, À; ayant 
au moins un événement élémentaire en commun. Les notions de pro- 
duit d'événements et d'événement impossible nous permettent de 
définir les événements incompatibles comme une suite d'événements 
Ay, À, - .., A telle que 4;°:4; = © quels que soient 4; et À; 
Il esi évident que deux événements contraires À et À sont incompa- 
tibles. C’est le cas aussi de tous les événements élémentaires (par 
définition). 

Système complet d'événements. C’est un ensemble d'événements 
incompatibles 4,, A:, ..., A, tel que 


Ai+A4d+..+dy=Q; 
A;°4;= © 


pour tous les i, j =1,2,..., keti=j. 

Il est évident que l’ensemble fondamental peut être considéré 
comme un cas particulier d’un système complet d'événements. D'une 
façon générale, la partition de l’ensemble fondamental S en classes 
disjointes nous donne un système complet d'événements dans lequel 
chaque événement est défini par la classe correspondante. Revenons à 
l'exemple 4.5. Pour fixer les idées, posons N = 100, désignons par d 
le nombre de pièces défectueuses trouvées dans un échantillon de 
100 pièces prélevées au hasard dans une production en série fonction- 
nant en régime stationnaire et définissons un système d'événements 
comme suit: 


À, = {d =0} = {w,} un lot d'excellente qualité; 
A: = (1 Ld<L5} = {os Os O4 On Oe} 


un lot présentant des défauts tolérables (le lot est acceptable); 
À; = {6 < d< 10} = {w7, Os + + -9 O1} 
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un lot présentant un taux de pièces défectueuses supérieur à la norme 
admise (ce lot est accepté à un tarif bas); 


A, = {d>11} ms {O2 Oygs + + +» 101} 


un lot mis au rebut. 

Il est évident que les événements 4,, 4,, A, et À, forment un 
système complet. 

4.1.3. Espace probabilisé. Probabilités et opérations sur elles. 
La donnée de l’ensemble fondamental ne suffit pas à elle seule à 
décrire entièrement le mécanisme de l'expérience aléatoire étudiée. 
Il est évident qu’en plus de toutes les issues de cette expérience nous 
devons connaître aussi la fréquence d'apparition des divers événe- 
ments élémentaires. En effet, en revenant, pour fixer les idées, aux 
exemples 4.1 à 4.7, on conçoit sans peine que, dans le cadre de cha- 
cun des ensembles fondamentaux décrits, on peut considérer une 
infinité d’expériences différant fondamentalement par leur méca- 
nisme. Dans les exemples 4.1 à 4.3, les mêmes événements élémen- 
taires se produiront avec des fréquences différentes si l’on se sert de 
pièces de monnaie ou de dés différents (dés symétriques, dés à centre 
de gravité légèrement ou fortement décalé, etc.). Dans les exemples 
4.4 à 4.7, la fréquence d’apparition des articles défectueux, le carac- 
tère de la pollution des lots testés par les articles défectueux et la 
fréquence d'apparition d’un certain nombre de pannes de machines- 
outils dépendront du niveau technologique de la branche étudiée : 
avec un même ensemble fondamental la fréquence d’apparition des 
« bonnes » issues élémentaires sera supérieure dans des processus 
dont le niveau technologique est plus élevé. 

Pour bâtir (dans le cas discret) une théorie mathématique de 
l'expérience aléatoire (la théorie des probabilités) qui soit complète 
et cohérente, il faut en plus des notions déjà introduites d'expérience 
aléatoire, d'issue élémentaire et d'événement aléatoire se prévaloir 
d’un axiome postulant l'existence des probabilités des événements 
élémentaires (ces probabilités devant satisfaire une condition de 
normalisation) et de la définition de la probabilité de tout événement 
aléatoire. 

Axiome. A chaque élément w, de l’ensemble fondamental Q 
est associé un nombre positif p; caractérisant ses chances d’apparition 
et appelé probabilité, tel que 


PitPate.+pntes 2 pit (4.2) 


i:w,€ 


(de là, il résulte en particulier que 0 < p; < 1 quel que soit à). 

Définition de la probabilité d’un événement. La probabilité 
de tout événement À se définit comme la somme des probabilités 
de tous les événements élémentaires composant À, c’est-à-dire si 
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l'on désigne par P {A} la probabilité de À : 
P{4}= 2 Pto}= À Pr (4.3) 


: & CEA 

De (4.3) et (4.2) on déduit en particulier que 0 < P {4}<1 
de plus la probabilité de l'événement sûr est égale à 1, et celle de 
l'événement impossible à 0. Les autres notions et opérations sur les 
probabilités et les événements dérivent des quatre définitions exhi- 
bées (définitions d’une expérience aléatoire, d’une issue élémentaire, 
d’un événement aléatoire et de sa probabilité) et de l’axiome. 

Donc, pour décrire exhaustivement le mécanisme de l'expérience 
aléatoire étudiée (dans le cas discret), il est nécessaire de se donner 
l’ensemble fondamental fini ou dénombrable Q et d'associer à chaque 
issue élémentaire w; un nombre positif p; (& 1) qui est la probabi- 
lité P {w;} d'apparition de w;, la correspondance w; + p; devant 
vérifier la relation de normalisation (4.2). 

L'espace probabilisé est précisément la notion qui formalise cette 
description du mécanisme de l'expérience aléatoire. Se donner un 
espace probabilisé c'est se donner un ensemble fondamental Q et y 
définir une correspondance du type 


D + Di = P {os}. (4.4) 


Il est évident que la correspondance (4.4) peut être donnée de 
plusieurs façons : par des tables, des graphiques, des formules ana- 
lytiques et, enfin, par des algorithmes. 

Comment construire l’espace probabilisé correspondant aux con- 
ditions étudiées ? Si la concrétisation des notions d'expérience aléatoi- 
re, d'événement aléatoire, d'ensemble fondamental, et, dans le cas 
discret, de tout événement composé, ne pose en général pas de problè- 
mes, la situation est différente pour ce qui est de la définition des pro- 
babilités P {w;} à partir des conditions du problème envisagé. A cet 
effet, on se sert de l’une des trois approches suivantes. 

L'approche a priori du calcul des probabilités P {w;} consiste à 
analyser théoriquement les conditions spécifiques de l’expérience 
aléatoire étudiée. Dans de nombreux cas, cette analyse préliminaire 
permet de justifier théoriquement le procédé de définition des pro- 
babilités cherchées. Il est possible, par exemple, que l’ensemble fon- 
damental soit constitué d’un nombre fini d'éléments, les condi- 
tions de réalisation de l'expérience aléatoire considérée étant telles 
que les probabilités des N issues élémentaires sont égales (c'est 
notamment le cas dans le jet d’une pièce équilibrée, d’un dé parfaite- 
ment symétrique, dans le tirage d’une carte dans un jeu bien battu, 
etc.). D'après l’axiome (4.2), la probabilité de chaque événement 
élémentaire est alors égale à 1/N. Ceci permet d’obtenir une recette 
simple pour le calcul de la probabilité de tout événement : si un 
événement À est composé de V , événements élémentaires, la défini- 
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tion (4.3) nous donne 


V 1 
N 


P{4}=— (4.3") 
La formule (4.3) exprime que la probabilité d'un événement peut 
être définie dans cette classe de situations comme le rapport du nombre 
d'issues favorables (c’est-à-dire d’issues élémentaires composant cet 
événement) au nombre de toutes les issues possibles (ceci est la 
définition classique de la probabilité). Dans l’axiomatique moderne, 
la formule (4.3°) n’est pas la définition de la probabilité : elle n'est 
valable que dans le cas particulier où toutes les issues élémentaires 
sont équiprobables. 

L'approche fréquentiste a posteriori du calcul des probabilités 
P {w;} est basée en fait sur la définition de la probabilité adoptée 
dans le cadre de la conception fréquentiste de la probabilité (cette 
conception est exposée avec plus de détails, par exemple, dans [401], 
[90]). D'après cette conception, la probabilité P {w;} se définit 
comme la limite de la fréquence relative d'apparition de l'issue 
w; lorsque le nombre » d'expériences aléatoires augmente indéfini- 
ment, c’est-à-dire que 


ri= P {o;}= lim 7r 02, (4.5) 


n — 7 


où Mn (w;) est le nombre d'expériences aléatoires (parmi le nombre 
total n d'expériences aléatoires) dans lesquelles apparaît l'événement 
élémentaire w;. En conséquence, pour la définition pratique (appro- 
chée) des probabilités p; on propose de prendre les fréquences relati- 
ves d’apparition de l'événement w; dans une longue série d’expé- 
riences aléatoires *). Un tel procédé de calcul des probabilités p; 
ne contredit pas la conception (axiomatique) moderne de la théorie 
des probabilités, puisque cette dernière a été bâtie de telle sorte 
que l’analogue empirique de la probabilité objective réelle P {4} 
de tout événement À est la fréquence relative de réalisation de cet 
événement dans une série de » épreuves indépendantes. Les proba- 
bilités sont définies de manière différente dans ces deux conceptions : 
dans l’approche fréquentiste la probabilité n’est pas une propriété 
objective existant a priori de l'événement étudié, elle n'apparait que 
si l'on procède à une expérience ou à une observation; d'où une con- 


*) Le mathématicien allemand R. Mises. dont le nom est attache au déve- 
loppement de la conception fréquentiste de la probabilité, estimait qu’à tout 
problème de probabilité correspondait nécessairement un processus réel (véri- 
fiant les conditions introduites par lui de « collectif statistique ») et, de ce fait, 
qualifiait la théorie des probabilités de science des phénomènes du monde réel 
et non de science mathématique. La notion de « collectif » de Mises implique 
une pop fréquente de l'événement (et de l’expérience respective) consi- 
déré. l'existence des limites (4.5) et l'indépendance de ces limites par rapport 
à la suite partielle d'expériences aléatoires choisies pour les calculer. 


5® 
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fusion entre les caractéristiques probabilistes théoriques (condition- 
nées par les conditions réelles d’« existence » du phénomène étudié) 
et leurs analogues empiriques. Comme le note Cramer « cette défini- 
tion de la probabilité peut être comparée, par exemple, à la défini- 
tion d’un point géométrique comme la limite d’une tache de craie de 
dimension indéfiniment décroissante, mais la géométrie axiomatique 
contemporaine n'a pas adopté une telle définition » ([40]). Nous ne 
nous attarderons pas sur les lacunes mathématiques de la conception 
fréquentiste de la probabilité. Nous indiquerons seulement les dif- 
ficultés soulevées par le calcul des valeurs approchées p; à l’aide des 
fréquences relatives m, (w;)/n. Premièrement, les conditions d'expé- 
rience aléatoire (c’est-à-dire les conditions d'ensemble statistique) 
dans laquelle on admet la tendance des fréquences relatives à se 
regrouper autour d’une valeur constante, ne peuvent être conservées 
indéfiniment et avec une précision élevée. Donc, pour estimer les 
probabilités p; à l’aide des fréquences relatives m, (w;)/r, on n'a pas 
intérêt à prendre des séries trop longues (c’est-à-dire z assez grand), 
ce qui, soit dit en passant, fait perdre son sens à la limite (4.5). Deu- 
zièmement, dans les situations donnant lieu à un nombre assez grand 
d'’issues élémentaires (on sait que ce nombre peut être infini ou 
même, comme signalé au $ 4.1, avoir la puissance du continu), mè- 
me dans les séries d'épreuves arbitrairement longues nous aurons 
des issues possibles w; qui ne se produiront jamais; quant aux valeurs 
approchées des probabilités acquises à l’aide des fréquences relatives 
des autres issues possibles, elles sont peu crédibles dans ces condi- 
tions. 

Approche modélique a posteriori. Cette méthode de définition des 
probabilités P {w;}, correspondant au système de conditions étudié, 
est actuellement de loin la plus répandue et la plus commode sur le 
plan pratique. Son principe est le suivant. D'une part, des lois de 
probabilité modèles (les lois binomiale, de Poisson, normale, expo- 
nentielle, etc., cf. $ 6.1) ont été élaborées et analysées dans le cadre 
de l'approche a priori. De l’autre, l’analyste a entre les mains les 
résultats d’un nombre fini d'expériences aléatoires. Par ailleurs, 
par des méthodes spéciales de statistique mathématique (tests des 
paramètres inconnus, cf. chap. 8 et 9) il « ajuste » en quelque sorte 
les lois modèles à ses résultats (qui reflètent la réalité étudiée) et ne 
conserve que le ou les modèles qui ne contredisent pas ces résultats et 
leur correspondent le mieux dans une certaine optique. 

Décrivons maintenant les principales opérations sur les probabi- 
lités des événements, qui découlent des définitions et axiomes adoptés 
plus haut. 

Probabilité de la somme d’événements (théorème d’addition des 
probabilités). Formulons et prouvons la règle de calcul de la pro- 
babilité de la somme de deux événements 4, et 4,. À cet effet, dé- 
composons les ensembles des événements élémentaires constituant 
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A, et À, en deux parties: 
A1 = À; + Aue5 As = À5 + Aa, 


où À? est la différence symétrique de 4, et A, (4, m = 1,2; k 
 m), c'est-à-dire est constituée des événements élémentaires de 
A, n’appartenant pas à 4,,, et 4,, est l'intersection de À, et 42. 
La définition (4.3) et celle du produit des événements À, et 4, nous 
donnent : 


P{A;}= à Pi >” Pi + pi= P{A;}+ P{Ai- A2}; 


i : WE Ai Te w € Aî 1:0,€: 12 
(4.6) 
P{Aÿ= Ù p= NO pi+ N  pi=P{4}+P{Ai4} 
i:w,€ As i : W,EA? ON 
(4.7) 


D'autre part, en vertu de la définition de la somme des événe- 
ments À = À, + 4, et de (4.3), on obtient 


P{4+4}= ÙŸ pit PET, Dr 7 (4.8) 


i: &,EAT i : WEAS i'w;EA,, 
Les relations (4.6), (4.7) et (4.8) entraînent la formule d’addition 
des probabilités (de deux événements): 
P {Ai + As} = P {A1} + P {42} — P {Aide}. (4.9) 


La formule (4.9) peut être généralisée à un nombre quelconque de 
termes (cf., par exemple, [54], p. 105) 


R 
P {A,+ A4, + te + A1} = D P{A4;}—-A, +4 — ... + (— 1)**1A, 4, 
(4.9") 


i=1 
où À, (m = 1, 2, ..., k — 1) sont des sommes de probabilités de 
la forme 
k k 
D sus PA; Ar à 
Zi init m+1 
la sommation n'étant réalisée visiblement qu'à la condition que tous 
les i,, de, - - ., im+1 Soient distincts et i Ki <<... <im+,. Dans 
le cas particulier où le système 4,, 4, . .., A, est composé d'évé- 
nements incompatibles, tous les produits de la forme 4; -4,- ... 
. -4;,,, (m 2 1) seront des événements vides (ou impossibles) 
et la formule (4.9°) nous donne 
P{Ai+As+... + An} = P {A,} + P {A4,} + ... 
... + P{A;} (497 
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Probabilité d'un produit d'événements (théorème de multipli- 
cation des probabilités). Probabilité conditionnelle. Etudions le 
cas où une condition posée a priori ou la fixation d’un événement déjà 
réalisé exclut une partie des événements élémentaires de l’espace 
probabilisé analysé. Ainsi, quand on analyse un ensemble de N arti- 
cles composé de W, articles de première sorte, de V, de deuxième 
sorte, de V, de troisième sorte et de N, de quatrième sorte (W, + 
+ Vs + N3+N, = N),on a affaire à un espace probabilisé com- 
posé des issues élémentaires w,, &+, ©3 et w, de probabilités respecti- 
ves Pi = NUN, ps = NAN, pa = NAN et p, = N/N (wi est 
l'événement qui consiste en ce que l’article prélevé au hasard est de la 
i-ième sorte). Supposons que les conditions de triage impliquent 
qu'à une certaine étape les articles de première sorte soient séparés de 
la population générale. Toutes les conclusions probabilistes (notam- 
ment, le calcul des probabilités des divers événements) nous aurons 
à les tirer à partir d'une population tronquée constituée uniquement 
des pièces de deuxième, troisième et quatrième sorte. Dans ces cas, 
on parle de probabilités conditionnelles, c'est-à-dire de probabilités 
calculées sous réserve qu’un certain événement se produise. Dans le 
cas considéré, cet événement est l'événement B = {w:, w3, &4}, 
c'est-à-dire l'événement qui consiste en ce que toute pièce prélevée 
au hasard soit de deuxième, de troisième ou de quatrième sorte. Si 
donc l’on s'intéresse au calcul de la probabilité conditionnelle de 
l'événement À (sachant que l'événement B s'est réalisé) qui consiste, 
par exemple, en ce qu'une pièce prélevée au hasard est de deuxième 
ou de troisième sorte, il est évident que cette probabilité condition- 
nelle (désignée par P {A | B}) peut être définie comme suit: 


NobNa _ NotNs. NatkNatN; _ P{4B} 
PNR EENS de M Ph. 


Il est aisé de voir sur cet exemple que le calcul des probabilités 
conditionnelles consiste en fait à passer à un autre espace fondamen- 
tal tronqué par la condition B dans lequel le rapport des probabilités 
des événements élémentaires est le même que dans l'espace primitif, 
mais ces probabilités sont normées (au moyen d'une division par 
P {B}) de telle sorte que la condition (4.2) soit remplie dans l’es- 
pace tronqué. On aurait, certes, pu ne pas introduire la terminologie 
des probabilités conditionnelles et utiliser simplement le langage des 
probabilités habituelles (« inconditionnelles ») dans l’espace tron- 
qué. Mais les notations en termes de probabilités de l’espace fonda- 
mental primitif sont utiles dans les cas où de par les conditions du 
problème nous devons constamment nous rappeler qu'il existe un 
espace primitif plus vaste. 

Etablissons la formule de la probabilité conditionnelle dans le 
cas général. Soit B un événement (non vide) déjà réalisé et soit À 
un événement dont il faut calculer la probabilité conditionnelle 
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P {A | B}. L'espace fondamental tronqué Q n'est composé que des 
événements élémentaires figurant dans B et, par suite, leurs proba- 
bilités (compte tenu de la condition de normalisation (4.2)) sont 
définies par les formules *): 


ot pe pe 
pi= PL {oi=4 Pat Poil) bus (4.10) 
| 0 si o,6 B. 


Par définition, la probabilité P {A | B} est la probabilité de 


l'événement À dans l’espace probabilisé tronqué (©, D} et, donc, 
en vertu de (4.3) et (4.10): 


So 
Pas Pi 
i i:0,E€AB 

PatAIB}=P.(4}= D Pb)= > (hr) 

w € A t: w,EAB 
c'est-à-dire que 

P,{4B} 

Po{A | B}= RE (4.11) 


ou, ce qui est équivalent, 
Pa {AB} = Pa {A | B}-Pa {B}. (4.11) 


Les formules (4.11) et (4.11) sont appelées respectivement for- 
mule de la probabilité conditionnelle et règle de multiplication des 
probabilités. 

Rappelons encore que l'étude des probabilités conditionnelles 
d'événements différents se réalisant sous une même condition B re- 
vient à considérer des probabilités ordinaires dans un autre espace 


fondamental (tronqué) Q = B en recalculant les probabilités respec- 
tives des événements élémentaires à l’aide de la formule (4.10). 
Donc, les théorèmes généraux et les opérations sur les probabilités res- 
tent tous valables pour les probabilités conditionnelles pourru que 
celles-ci soient calculées pour la même condition. 

Indépendance des événements. On dit que deux événements 4 
et B sont indépendants si 


P {AB} = P {A}-P {B}. (4.12) 


Cette définition est légitime. Pour nous en assurer revenons au théo- 
rème de multiplication des probabilités (4.11”) et voyons dans quels 
cas la formule (4.12) en résulte. Il est évident que ceci a lieu lors- 
que la probabilité conditionnelle P {A | B} est égale à la probabi- 


*) L'indice affectant la probabilité indique dans quel espace est calculée 
cette probabilité. 
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lité inconditionnelle correspondante P {À } ou lorsque la connaissan- 
ce du fait que l’événement B s’est réalisé n'influe en aucune façon 
sur les chances d'apparition de l’événement A. 

La définition de l'indépendance se généralise à un système de 
plus de deux événements de la manière suivante. On dit que des 
événements A,, 4:, -.., A, sont mutuellement indépendants si 
pour tous deux, trois, quatre, etc., événements de cet ensemble sont 
valables les opérations de multiplication suivantes: 


P{4;,-4;}=P{4;} P{4;)}; 
P{4;,-4;,-4;,}= P {4;,}-P {4;,}-P {4;,}; 


P {AA An}= P {A} P {AS ... P {AY 


(4.13) 


Il est évident que dans la première ligne on a 


C? = k (k—1) 


1.2 


(combinaisons de k éléments deux à deux) équations, dans la deuxié- 
me, C?, etc. Au total, la formule (4.13) regroupe C$ + C$ + ... 
... + CÈ = 2* — k — 1 conditions. Les CÈ conditions de la pre- 
mière ligne suffisent pour assurer l'indépendance deux à deux de ces 
événements. Et bien que indépendance deux à deux et indépendance 
dans l’ensemble ne recouvrent pas à strictement parler la même idée, 
leur différence présente un intérêt plutôt théorique que pratique: 
dans la pratique il n’existe probablement pas d'exemples importants 
d'événements indépendants deux à deux qui ne soient pas indepen- 
dants dans leur ensemble. 

L'indépendance des événements facilite considérablement l’ana- 
lyse des probabilités rattachées au système d'événements étudié. En 
effet, si dans le cas général il faut 2* probabilités pour décrire les 
probabilités de toutes les combinaisons des événements du système 
A, Aa, - -., A», il en faut seulement k, en l’occurrence les proba- 
bilités P {4,}, P {A2}, ..., P {A,}, si ces événements sont deux 
à deux indépendants. 

Les événements indépendants se rencontrent fréquemment en 
pratique : ils se produisent dans les expériences (observations) qui 
sont effectuées indépendamment l’une de l’autre au sens physique 
habituel. 

C’est précisément l'indépendance des issues dans une série de 
quatre jets consécutifs de dé qui a permis (grâce à (4.13)) de calculer 
la probabilité de non-apparition (dans aucun de ces jets) du six dans 
le numéro 2.2.1. En effet, si À; est l’événement consistant en la 
ron-apparition du six dans Île i-ième jet (à — 1, 2, 3, 4), on obtient, 
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en tenant compte du fait que P {4;} = 5/6 pour tous les i — 1, 2, 3, 4. 
P {A,-.4,-43-4,} = 
— P {A,}-P {A4,}-P {4:}-P {A,} = (5/6) = 625/1296. 


Formule des proktabilités totales. Souvent le calcul direct de la 
probabilité d'un événement À est difficile, voire impossible, alors 
que le calcul (ou la donnée) des probabilités conditionnelles du même. 
événement À (sous des conditions différentes) ne pose pas de problè- 
me. Si les conditions B,, B:, . .., B3, sous lesquelles sont connues 
(ou facilement calculables) les probabilités conditionnelles d’un 
événement À, forment un système complet d'événements (cf. n° 4.1.2} 
on peut calculer la probabilité P {A } à l’aide de la relation 


P {A} = P {A |B;}P{B}+ P {A |B.}-P {Be} +... 
. + P{AÏIBx}-P {Ba}, (414) 


dite formule des probabililés Lotales. 

Pour prouver la formule (4.14), on remarquera que les événe- 
ments élémentaires composant l'événement À peuvent être divisés 
k groupes disjoints qui sont chacun l'intersection de À avec un évé- 
nement B; (ceci résulte directement du fait que la somme des événe- 
ments B,, B,, ..., B,, qui sont deux à deux disjoints, recouvre. 
l’espace fondamental tout entier), c’est-à-dire que 


À = AB, + AB, + …. + AB;. 


En se servant ensuite du théorème d’addition des probabilités. 
(4.9”) (appliqué aux événements incompatibles que sont les événe- 
ments AB,;, AB,, . .., AB,) et en calculant la probabilité de chaque. 
produit AB; à l’aide de la formule (4.11’), on retrouve la formu- 
le (4.14). 

Formule de Bayes. Commençons par le problème suivant. Dans 
un dépôt sont stockés des instruments construits par trois usines: 
20 % de ces appareils proviennent de l'usine n° 1, 50 % de l'usine: 
n° 2 et 30 % de l'usine n° 3. Les probabilités qu'un appareil tombe. 
en panne durant le délai de garantie sont de 0,2, 0,1 et 0,3 si cet 
appareil sort respectivement de l’usine n° 1, n° 2 et n° 3. Un appa- 
reil sans label est tombé en panne (pendant le délai de garantie). 
Quelle est l’usine qui a le plus de chance de l’avoir produit ? Quelle. 
est cette probabilité ? Si l’on désigne par À; l’événement « un appa- 
reil prélevé au hasard provient de l'usine à » (à = 1. 2, 3), B l'événe- 
ment « un appareil pris au hasard tombe en panne », le problème posé- 
ci-dessus se ramène de toute évidence au calcul des probabilités. 
conditionnelles suivantes: P {4; | B} sachant que P {A4,} = 0,2; 
P {A;}=0,5; P(4:} =0,3: P{B]4,}=0,2; P{B]|A4,}— 
= 0,1; P{B]|4A;,} = 0,3. Les événements 4,, 4, et À, formant un 
système complet, la formule de la probabilité conditionnelle (4.11} 
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nous donne 
P {4A,B 
P{Ai1B}= SE. (4.15) 
D'après le théorème de multiplication des probabilités (4.11), 
le numérateur de (4.15) peut être mis sous la forme 
P {AB} = P {BA;} = P {B|A:i}-P {Ai}, (4.16) 
et, d’après la formule des probabilités totales (4.14), le dénominateur 
devient 


P {B}=P{B]|A;}-P {Ai} + P {B|A2}-P {As} + 
+ P{B]|A;,}-P {As}. (4.17) 
En portant (4.16) et (4.17) dans (4.15), on trouve 


PA RE REA (4.18) 
Ÿ P{BIA;ÿ}-P (45 
J=1 


Cette formule nous conduit immédiatement aux probabilités 
cherchées : 


0,2.0,2 0,04 
P{4,1B} 0,2:0,220,1-0,5+0,3-0,3 0,18 0,227 ; 
: __0,5-0,1 = 0,05 is 0. 
P {4, | B}= TR VC = F1 = 0,278 ; 
0.3.0 
P {A3 | B} = "955 = 0,500. 


Donc, l'appareil défectueux a le plus de chance de sortir de 
l'usine n° 3. 

La démonstration de la formule (4.18) dans le cas d’un système 
complet de X événements reprend in extenso celle de la formule (4.18). 
Sa forme générale 


P{A,| B}= "Hi PiBlA (4.19) 
> P{B|A;}.P{4;} 


J=i 


s'appelle formule de Bayes. 


&.2. Espace probabilisé continu (axiomatique de Kolmogorov) 


4.2.1. Spécificité du cas général (continu) de l’espace probabi- 
disé. Nous avons évoqué précédemment des cas d’ensembles fonda- 
mentaux Q plus que dénombrables. Ainsi, l’espace fondamental a la 
puissance du continu si à chaque issue élémentaire w; est associe un 
ou plusieurs caractères de l’objet étudié, mesurés par des unités 
continues (de temps, longueur, poids, température, pression, etc.). 
On pourrait certes objecter que la précision des mesures étant limitée, 


CH. 4. OPÉRATIONS SUR LES ÊÉVÊNEMENTS ALÉATOIRES 15 


l’ensemble fondamental réel sera’ au plus dénombrable. Or, d’une 
part, cette précision ne cesse de s’améliorer, donc la structure de 
l'espace probabilisé discret se modifiera en conséquence. De l’autre, 
l'étude de modèles continus reflétant la nature physique de l’événe- 
ment analysé accroît les possibilités analytiques de la théorie, fournit à 
l'analyste un outil mathématique plus puissant : il suffit de compa- 
rer les possibilités de la sommation et de l'intégration, les possibili- 
tés des équations aux différences et des équations différentielles, etc. 

Comment s'opère le passage du cas discret au cas continu lors de 
la construction d’une théorie des possibilités rigoureusement mathé- 
matique? L'extension automatique du schéma de construction de 
l’espace probabilisé discret (cf. $ 4.1) au cas continu est impossible. 
Une différence fondamentale entre le cas continu et le cas discret est 
que d'une façon générale on ne peut, comme ceci a été fait dans un 
espace probabilisé discret, déclarer toute partie de l’ensemble fonda- 
mental Q événement aléatoire, c’est-à-dire un événement observable 
dans le cadre de l'expérience aléatoire envisagée. En d’autres ter- 
mes, dans un espace probabilisé continu les parties de l’ensemble 
fondamental Q qui jouissent de la propriété d’être observables sont 
dites mesurables, les autres, non mesurables. 

Citons un exemple de non-mesurabilité de parties de l'ensemble 
fondamental due aux capacités réduites des instruments d'observa- 
tion utilisés. Supposons qu’un astronome dispose d'un télescope lui 
permettant de fixer la position des seules étoiles dont la luminosité 
excède un certain seuil. Pour ensemble fondamental nous prendrons 
l’ensemble des positions de toutes les étoiles (et non pas uniquement 
celles qui sont accessibles à l’astronome) dans l'espace. Il est évi- 
dent que l’ensemble Q est plus que dénombrable (a la puissance du 
continu). Pour l’astronome, sous réserve qu'il n'utilise pas les acquis 
de l'astronomie, sont non mesurables (non vérifiées expérimentale- 
ment) toutes les assertions concernant les étoiles dont la luminosité 
est inférieure au seuil. Ceci étant, nous savons qu'avec des instru- 
ments plus puissants, la prise en compte du mouvement de la Terre 
autour du Soleil ou la mise en œuvre d’autres méthodes de l’astro- 
nomie moderne, une partie de ces assertions pourrait être vérifiée. 
La notion de mesurabilité permet dans le cas présent de faire une 
nette distinction entre les assertions vérifiables et celles non encore 
en l’état de l’être sur la structure de l’espace probabilisé. Quant à 
l'ensemble fondamental Q, il reste invariant en tant qu'’état de la 
nature. 

Ainsi, il est naturel d'appeler événements aléatoires les seuls 
sous-ensembles À de l’ensemble fondamental Q@ à propos desquels il 
est possible de dire s’ils ont eu lieu ou non dans le cadre d’une expé- 
rience, puisque dans ce cas seulement on peut parler de la fréquence 
relative de leur apparition dans une série de r7 expériences, donc, de 
la probabilité P {A}. 
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Cette particularité du cas continu implique vraisemblablement 
l'introduction de définitions et axiomes supplémentaires sur les 
événements aléatoires, les opérations sur eux et sur leurs probabi- 
lités. Cette procédure est notamment appliquée lors de la construc- 
tion axiomatique (ensembliste) de la théorie des probabilités dont le 
premier exposé complet et rigoureux est dû à Kolmogorov ([81]) *). 


4.2.2. Evénements aléatoires, probabilités et opérations (approche 
axiomatique de Kolmogorov). Définissons la partie des sous-ensem- 
bles de l’ensemble fondamental Q qui contient des événements. La 
procédure de définition d’un événement aléatoire À dans le cas con- 
tinu est identique à celle adoptée pour le cas discret. Mais, si dans 
le cas discret, il nous a suffit de définir comme notions premières les 
événements élémentaires @j, We, - .., @+x, . .. (et tout sous-en- 
semble de l’ensemble fondamental était un événement), dans le cas 
continu, dans chaque situation concrète nous devons (à partir de 
considérations physiques) définir en plus de une catégorie de sous- 
ensembles de Q qui sont visiblement des événements. Ensuite, tout 
événement aléatoire À se définit comme une combinaison des sous- 
ensembles de cette catégorie. 

Définition d’un événement aléatoire. Considérons un système 
(fini ou dénombrable) de sous-ensembles À4,, A:, . .., A,, ... de 
l’ensemble fondamental Q, chacun de ces sous-ensembles étant un 


événement. Alors, l’ensemble Q, les complémentaires 4; — Q — AÀ;, 
@ = Q — Q et la somme À = À, + 4, + ... + À, + ... sont 
aussi des événements (on en déduit immédiatement que le produit 
I = 4,-43- ... -A,- ... est aussi un événement, puisque son 
complémentaire Il = À, + 4, + ... l'est d'après la définition 
donnée). 

Dans la suite, on désignera par C le système des sous-ensembles 
de l’ensemble fondamental Q@ qui sont des événements. 

Axiome. À chaque événement À du système C est rattaché un 
nombre p (4) = P {A} compris entre ÔÜ et 1 appelé probabilité de 
l'événement À. tel que 

a) p (Q) = P {9} = 1: 

b) si des événements À,, A4,, . .., À,, ... sont incompatibles, 
alors 


P{A,+As+... +A, + ...}= 
= P{4;} + P {42} +... +P {As} +... 


*) La première interprétation d'un événement aléatoire, comme un en- 
semble. et de sa probabilité, comme une mesure de cet ensemble. est probable- 
ment l'œuvre du mathématicien polonais A. Lomnicki (Lomnicki A. Nouveaux 
fondements du calcul des probabilités — Fundam. Math.. 1923. 4). Cependant, 
la « théorie des probabilités comme théorie mathématique exacte a eté cons- 
Has dans un volume convenable pour la première fois par A. Kolmogorov + 
(11381. p. 11). 


CII. 4. OPÉRATIONS SUR LES £ÉVÊNEMENTS ALÉATOIRES 37 


De cet axiome, on déduit en particulier la relation suivante entre 
les probabilités des événements À et À: 


P {A} =1 —P {A}. 


La propriété axiomatique b) des probabilités a été formulée et 
prouvée dans le cas discret sous la forme du théorème d’addition des 
probabilités. 

De façon analogue, Le théorème de multiplication des probabili- 
tés (qui a été déduit des définitions et axiomes du cas discret) est 
adopté par définition dans le cas continu. 

Définition de la probabilité conditionnelle. La probabilité con- 
ditionnelle P {A | B} d’un événement À sachant qu'un événement B 
s'est réalisé est donnée par la formule 


P {AB} = P {A | B}.P {B}. 


Les opérations sur les événements et leurs probabilités et, en 
particulier, la formule des probabilités totales (4.14), la formule de 
Bayes (4.18), la définition de l’indépendance pour le système d’évé- 
nements (4.12), (4.13) et les autres formules prouvées dans le cas 
discret sont valables (et peuvent être établies) dans le cas d’un espace 
probabilisé continu. 

Récapitulons. Pour décrire complètement le mécanisme d'une 
expérience aléatoire étudiée dans le cas continu, c’est-à-dire pour 
définir l’espace probabilisé. il faut : 1) décrire l’ensemble des événe- 
ments élémentaires Q ; 2) décrire le système C des sous-ensembles me- 
surables de Q ou des sous-ensembles observables (c’est-à-dire des 
événements); 3) à chaque événement À du système C associer un 
nombre positif P {A} appelé probabilité de l'événement À, cette 
correspondance vérifiant les conditions a) et b) et l’axiome (il est 
évident que l'application P est une fonction d'ensemble numérique 
définie sur les sous-ensembles du système C; de telles applications 
sont dites mesures de probabilité définies sur le système de sous-en- 
sembles €). Donc, si dans le cas discret deux symboles : Q et p, ont 
suffi à décrire l’espace probabilisé, dans le cas continu, il en faut 
trois: Q, C, P. 

L'exemple des observations astronomiques conforte en quelque 
sorte le caractère naturel des notions de sous-ensemble mesurable 
(« observable» ) et non mesurable (« non observable ») de l’ensemble 
des événements élémentaires (. Mais tout modele, toute théorie, y 
compris la conception axiomatique de la théorie des probabilités, 
n'est qu'une forme de représentation approchée de la réalité, une for- 
me qui n'est pas exempte de défauts. L'exemple suivant est destiné 
à prévenir le lecteur contre toute surestimation des vertus de l’ap- 
proche axiomatique. 
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Les sondages d'experts sont utilisés sous des formes différentes 
pour les prévisions socio-économiques et scientifico-techniques à 
long terme. Une forme consiste à demander à chaque expert d’éva- 
luer subjectivement la probabilité de réalisation d'un événement *). 
Si l’on aborde la modélisation de ce processus du point de vue de 
l’école subjectiviste et que, par conséquent, l’on interprète chaque 
expert comme un e instrument de mesure », on peut définir la no- 
tion d'expérience aléatoire comme le résultat de la réponse de l’ex- 
pert à la question posée. Dans ce cas, l’espace des issues élémentaires 
© doit évidemment être composé de tous les points de l'intervalle 
[0, 1]. En construisant le système C des « observables » de l'espace 
(2, il eût été naturel d’exiger a priori que tout intervalle À — 
= [c,, c.], contenu dans l'intervalle {[0, 1] (c’est-à-dire que 0 << 
< Cy L Ce L 1), appartienne à la catégorie des événements (autre- 
ment dit, pour tout intervalle À = [c,, c,] doit être définie la pro- 
babilité P {A} = P {{c,, c,]} que la réponse chiffrée d’un expert 
pris au hasard appartienne à cet intervalle). Mais alors, d’après la 
définition d’un événement aléatoire dans le cas continu, seront 
des événements non seulement les intervalles, mais la somme et le 
produit d’un nombre dénombrable, d’entre eux, ainsi que leurs com- 
plémentaires (c'est-à-dire les événements contraires). Donc, si l’on 
prend un point quelconque c € [0, 1] et que l’on considère la suite 
d'intervalles A, = [c — 1/n, c + 1/n], on constate que ce point 
doit être un événement, car il est le produit d’un nombre dénom- 
brable d’intervalles A,. Ainsi tout point de [0, 1] est un événement. 
L'ensemble des points rationnels est dénombrable. Donc, c’est un 
événement aussi. Il en est de même de l’ensemble des points irration- 
nels, car complémentaire de celui des rationnels. Mais il est peu 
probable que du point de vue physique l'appartenance à l’ensemble des 
rationnels et des irrationnels puisse être considérée comme un obser- 
vable (donc comme un événement physiquement discernable). Cet 
exemple montre que l’approche axiomatique de la théorie des probabi- 
lités peut conduire à des conclusions dont l'interprétation physique est 
erronée. La construction de l’espace probabilisé n’a pas été menée à 
son terme ici, puisque le procédé de calcul des probabilités sur les 
intervalles, soit P {A} = P {[c;, c.l}, n’a pas été défini. La défini- 
tion axiomatique de ces probabilités dépend aussi de la nature des 
conditions caractérisant notre expérience aléatoire. Ainsi, si l’on 
s’imagine être dans la situation la moins favorable (l'événement qui 
nous préoccupe est tellement éloigné et incertain ou les experts sondes 
tellement incompétents que leurs réponses sont grosso modo uniformé- 
ment distribuées sur l'intervalle {[0, 1]), alors il est naturel d’ad- 
mettre que les probabilités P {A} dépendront seulement de lalon- 


*) Cette forme d'expertise est utilisée. par exemple, pour composer des 
scénarios pour le développement socio-économique et industriel d’un pays. 
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gueur de l'intervalle À et pas de sa position, et de les définir par 
conséquent à l’aide des relations *). 


P {les, col} = Ce — 0. (4.20) 


Il est immédiat de vérifier que ces probabilités satisfont les pro- 
priétés a) et b) de l’axiome. 

Signalons dans le cadre de cet exemple une distinction fonda- 
mentale entre un grand nombre d’espaces probabilisés continus et 
d’espaces probabilisés discrets : la probabilité de réalisation de tout 
événement élémentaire « est nulle ici; or la probabilité P {A}, où 
A est un intervalle aussi petit que l’on veut, sera toujours stricte- 
ment positive (ceci résulte directement de (4.20)). Donc, cet exemple 
nous met pour la première fois en face de la situation, semble-t-il 
paradoxale, d'événements w qui bien que possibles n'en possèdent pas 
moins une probabilité nulle. De façon respective, les événements 


© = Q — w complémentaires d'événements w de probabilité nulle ne 
peuvent être appelés certains bien que leur probabilité soit égale à 
l'unité. A propos des événements w, on dit qu'ils ont lieu « presque 
sûrement ». Une étude plus poussée montre que dans un espace pro- 
babilisé continu, ces situations ne sont pas paradoxales. Pour com- 
prendre cette idée, on pourrait songer à un solide qui a une certaine 
masse, alors que les points qui le composent sont impondérables. Il 
est évident que dans cette analogie le solide joue le rôle d’un événe- 
ment, le point, le rôle d'une issue élémentaire, la masse, le rôle de la 
probabilité. 
Conclusions 


1. Les fondements de l’appareil mathématique de la théorie des 
probabilités sont: les notions d'expérience aléatoire, de son issue 
possible et d'ensemble des événements élémentaires ; l’axiome d'exis- 
tence et de normalisation des probabilités des événements élémen- 
taires:; la définition d'un événement aléatoire et de la méthode de 
calcul de sa probabilité. 

2. La théorie des probabilités moderne s’édifie axiomatiquement. 
Ceci étant, pour construire l’espace probabilisé discret, c’est-à-dire 
pour décrire mathématiquement le mécanisme d’une expérience aléa- 
toire dont l’ensemble des issues élémentaires est fini ou dénom- 
brable, il suffit de postuler un axiome (sur l’existence et la normalisa- 
tion des probabilités des issues élémentaires) et une définition (sur la 
méthode de calcul de la probabilité de tout événement). 

3. Les termes « mécanisme d’une expérience aléatoire », « sys- 
tème de conditions induisant l’ensemble statistique étudié» et 
« espace probabilisé » sont synonymes et peuvent être définis mathé- 
matiquement par la description de toutes les issues élémentaires 

*) Sur les trois approches possibles (a priori. fréquentiste a posteriori et 


modélique a posteriori) de l'élaboration et de la justification de telles hypothèses 
relativement à la nature des probabilités définies axiomatiquement voir n° 4.1.3. 


80 FONDEMENTS MATHÉMATIQUES DE LA THÉORIE DES PROBABILITÉES 


possibles et par la donnée de Ia loi qui associe à chacune d'elles la 
probabilité de son apparition (sous une forme analytique, tabulaire, 
graphique ou algorithmique). 

4. La principale difficulté soulevée par la construction de l’espace 
probabilisé correspondant au système de conditions étudié réside 
dans la définition des probabilités des événements élémentaires. Des 
trois approches de résolution de ce problème — l'approche a priori, 
l'approche fréquentiste a posteriori et l’approche modélique a poste- 
riori, — la dernière est la plus efficace et la plus facile à réaliser en 
pratique. 

». Les principales opérations dans l’espace probabilisé discret 
sont définies par les théorèmes d'addition et de multiplication des 
probabilités, les formules des probabilités totales et de Bayes. 

6. Contrairement au cas discret, dans le cas continu l’ensemble 
des événements élémentaires Q peut contenir des sous-ensembles non 
observables (non mesurables). Ces sous-ensembles ne peuvent être 
qualifiés d'événements, car, si À était un événement, il faudrait être 
en mesure de dire s’il est le résultat ou non d’une expérience (en ce 
sens il est « observable »); alors seulement on pourrait parler de la 
fréquence relative de sa réalisation dans une série d’expériences et, 
partant, de sa probabilité P {A}. 

7. Cette particularité de l’espace probabilisé continu implique 
l'introduction de définitions et d’axiomes subsidiaires régissant les 
événements aléatoires et les opérations sur leurs probabilités. La 
théorie axiomatique des probabilités (dont l’exposé complet et 
rigoureux a été donné pour la première fois en 1933 par Kolmogorov) 
construit l’espace probabilisé continu en partant de la définition 
d’un événement aléatoire (moyennant une énumération des opéra- 
tions ensemblistes possibles sur les sous-ensembles qui sont a priori 
des événements) et de l’axiome des probabilités, probabilités qui 
sont définies comme des fonctions d’ensembles-événements prenant 
leurs valeurs dans l'intervalle [0, 1]. Cette conception ne contredit 
pas la méthode de construction de l’espace probabilisé discret proposé 
plus haut (elle comprend cette méthode comme cas particulier et 
préserve, par conséquent, toutes les opérations sur les probabilités 
et les événements) et permet d'interpréter du point de vue physique 
la probabilité d'un événement comme la fréquence relative de son 
apparition dans une assez longue série d'expériences. 

8. La conception axiomatique de la théorie des probabilités peut 
dans certains cas, comme d'ailleurs tout autre modèle, conduire à 
des conclusions dont l'interprétation physique est mauvaise. 

9. L'espace probabilisé continu peut à l’inverse de l’espace discret 
contenir des événements de probabilité nulle. Les complémentaires 
de ces événements, bien qu'ils ne puissent être qualifiés de certains, 
n'en possèdent pas moins une probabilité égale à 1 (ces événements 
sont presque sûrs). 


CHAPITRE 5 


VARIABLES ALÉATOIRES 


5.1. Définition et exemples de variables aléatoires 


Les exemples d'expériences aléatoires (exemples 4.1 à 4.7 du 
n° 4.1.2) montrent que dans la plupart des cas le résultat d’une expé- 
rience aléatoire se laisse décrire par un ou plusieurs nombres. Dans 
les exemples 4.2, 4.5 et 4.7, ces résultats désignent respectivement 
le nombre de points de la face supérieure d’un dé ; le nombre de pièces 
défectueuses dans un échantillon de taille NW ; le nombre de pannes 
d’une chaîne desservie par une équipe prise au hasard. Dans l’exemple 
4.3 (série de 4 jets de dé), le résultat de chaque expérience aléatoire 
se représente par quatre chiffres ou un vecteur à quatre dimensions, 
et dans l’exemple 4.6 (test de deux échantillons de taille respective 
N, et N;), par un’couple de nombres ou un vecteur à deux dimensions. 
Même dans les exemples 4.1 et 4.4 qui, de prime abord, n'ont aucun 
lien avec des nombres, il est possible de coder les issues en attribuant 
par exemple le nombre 0 à « pile » (exemple 4.1) et à « bon » (exemple 
4.4), et le nombre 1 respectivement à « face » et « mauvais ». En 
poursuivant nos exemples et en considérant, dans le cadre ensemblis- 
te, l'analyse d’un ou de plusieurs caractères (exprimés par des nom- 
bres ou codés) des objets étudiés, on arrive à un schéma général dans 
lequel la notion d'expérience aléatoire se traduit par l'enregistrement 
d’un ensemble de nombres 


E = (60, 609, ..., 80), p 21 (5.1) 


Les valeurs de £ obtenues au terme de l’expérience envisagée dépen- 
dent d’une foule de facteurs aléatoires et sont définies de façon unique 
par l'issue élémentaire w de cette expérience (or cela signifie que & 
est une fonction numérique (pour p = 1) ou vectorielle (pour p > 2) 
de l’argument w). Nous sommes ainsi conduits à la définition suivante 
de la variable aléatoire. 

On appelle variable aléatoire üne quantité scalaire (p = 1) ou 
vectorielle (p > 2) mesurable recouvrant un certain sens physique, 
dont les valeurs (les composantes) sont affectées d'une dispersion incon- 
trôlable lors de la répétition de l'expérience (de l'observation, du pro- 
cessus). Ün pourrait dire aussi qu'une variable aléatoire £ est une 
fonction définie sur un ensemble d'événements élémentaires, c’est-à-dire 


que Ë = E (o). 
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Exemple 5.1. Le tableau 5.1 représente encore un exemple de 
variable aléatoire vectorielle (ou multidimensionnelle) avec la forme 
générale correspondante d'enregistrement d’une série d'observations. 

Les symboles de la variable aléatoire (variable qui en fait repré- 
sente la Liste des caractères analysés et se note le plus souvent par une 
lettre grecque: E, n, £. v, etc.) diffèrent des notations adoptées pour 


Tableau 5.1 


Objets analysés (familles) 


Caractères analysés des objets £ 
| | “à | j | - | ñn 
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© e . 
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EE 
20 | 
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les valeurs observées. Dans le tableau 5.1 et dans la suite les valeurs 
observées sont désignées à des fins d'unification par des lettres 
latines minuscules (la lettre x dans le tableau 5.1) affectées d’un 
indice supérieur pour le caractère analysé et d’un indice inférieur 
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pour le numéro de l'expérience ou de l'objet étudié; mais dans tous 
les cas il faut avoir présent à l'esprit que ces symboles « recouvrent » 
des valeurs numériques des caractères correspondants ou leurs valeurs 
codées. Ainsi. dans le tableau 5.1, de toute évidence les trois premières 
lignes seront composées de valeurs codées, les huit suivantes, de 
valeurs numériques revètant unesignification physique claire mesurées 
dans une certaine échelle. 


5.2. Valeurs possibles et observées d’une variable aléatoire 


Etant donné qu'une variable aléatoire £ est une fonction définie 
sur l’ensemble des issues élémentaires, ses valeurs possibles et leur 
nombre dépendent de Ja structure de l’espace probabilisé corres- 
pondant Q : à chaque événement élémentaire w est associée une valeur 
éventuelle de £. Donc, il y a autant d'événements élémentaires que 
de valeurs de & (w). Ainsi, dans les exemples du n° 4.1.2 nous avons: 
pour les exemples 4.1 et 4.4, en tout deux valeurs correspondant aux 
issues élémentaires « pile » et « face » (pour le premier exemple) et 
« bon » et « mauvais » (pour le second); pour l'exemple 4.2, les six 
premiers nombres entiers; pour l'exemple 4.3, tous les quadruplets 
formés avec les nombres 1 à 6 (on a vu que ces quadruplets étaient 
au nombre de 6% — 1296); pour l'exemple 4.5, tous les entiers posi- 
tifs compris entre 0 et NV; pour l'exemple 4.6, tous les couples de 
nombres dont le premier prend les valeurs entières comprises entre 0 
et V,, et le second, entre 0 et V, (il est évident que le nombre total 
de ces couples est égal à (NW, + 1) (W, + 1)): pour l'exemple 4.7, 
tous les entiers positifs. Il est certes impossible de « dénombrer » 
toutes les valeurs prises par une variable aléatoire définie sur l’espace 
continu des événements élémentaires Q: ces valeurs forment un 
ensemble qui a la puissance du continu. C'est précisément ce type 
de variables aléatoires qui est représenté par les composantes £(9 à 
EGD de £ dans l’exemple 5.1. 

Il y a lieu de faire une distinction entre les valeurs théoriques 
de la variable aléatoire (ces valeurs sont désignées par x°, r. ... 
++. In, - - - dans le cas discret et simplement par zx, dans le cas 
continu et les valeurs empiriques, c’est-à-dire observées dans les expé- 
riences (ces valeurs seront notées z,, ze, - . ., xn) *). 


9.3. Types de variables aléatoires 


La classification générale des divers types de variables aléatoires 
est donnée par le schéma de la figure 5.1. 

Si le résultat de l'expérience (de l’observation) est mesuré par 

*) Si la variable aléatoire étudiée est vectorielle (cf. $ 5.1). ces notations 
restent en vigueur, mais les lettres latines minuscules z°, x, r; seront remplacées 
par les majuscules correspondantes X9, X, X:. 
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un seul nombre (exemples 4.1. 4.2, 4.4. 4.5 et 4.7 du n° 4.1.2; cf. 
aussi le cas p — 1 dans (5.1)), la variable aléatoire correspondante 
est dite scalaire ou à une dimension. Si ce résultat est décrit par 
un ensemble de nombres (exemples 4.3, 4.6 et 5.1, ainsi que le cas 
p >2 dans (5.1)), la variable aléatoire correspondante s’appelle 
vectorielle ou multidimensionnelle. 

Une variable aléatoire scalaire est discrète ou continue selon 
qu'elle est définie sur un espace des événements élémentaires discret 


Vericble 
aléatoire 
Vectorielle Scclaire 
e 
L 1 1 - 
Diserete Continre 


Nominele Ordinale Quantitative 
Categorisée Non catégorisée 


Fig. 5.1. Schéma général de classification des principaux types de variables 
aléatoires 


ou continu. Il est évident que dans tous les exemples 4.1 à 4.7 de 
même que dans les cinq premières composantes de l’exemple 5.1 
(tableau 5.1), nous avons affaire à des variables aléatoires discrètes. 
Nous avons déjà signalé que certains chercheurs arguent de la pré- 
cision limitée des mesures pour préconiser d'utiliser uniquement des 
espaces probabilisés discrets, et respectivement uniquement des 
variables aléatoires discrètes. En effet, même quand on mesure des 
quantités continues (longueur, poids. température. pression, etc.), 
il existe toujours une unité discernable, une sorte de quantum indi- 
visible, dépendant du pouvoir de résolution des instruments utilisés, 
qui sert à représenter l’objet étudié. Mais les possibilités analytiques 
des modèles mathématiques continus, les résultats de leur utilisation 
indiquent qu'ils sont un appareil efficace non seulement pour les 
variables aléatoires continues, mais aussi pour les variables discrè- 
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tes dont les ensembles des valeurs sont suffisamment riches (cf. 
exemple du $ 6.1 et fig. 5.6). 

Les variables aléatoires discrètes scalaires se divisent en quanti- 
tatives, ordinales et nominales selon leur nature et leur destination. 

La variable aléatoire quantitative permet de mesurer dans une 
certaine échelle le degré de présence du caractère analysé dans l’objet 
sondé (voir les exemples 4.2, 4.3, 4.5, 4.6, 4.7, ainsi que les com- 
posantes Et) à £AD dans l'exemple 5.1). 

La variable aléatoire ordinale permet d’ordonner les objets d’après 
le degré de présence du caractère analysé. L’analyste fait appel aux 
variables aléatoires ordinales dans les cas où l’échelle dans laquelle 
il doit mesurer le degré de présence du caractère analysé n’existe pas 
ou lui est inconnue. Dans le tableau 5.1, la variable aléatoire :%) 
qui figure la qualité des conditions de logement prévoit quatre 
modalités (niveaux de qualité): « mauvais », « satisfaisant », « bon » 
et « très bon ». En attribuant à chaque famille sondée (d'après les 
critères adoptés) une de ces quatre modalités, on peut classer les 
familles par rapport à ce caractère. Le nombre total de modalités 
d’une variable ordinale peut être inférieur, égal et même supérieur 
au nombre d'objets sondés (d’expérientes aléatoires). 

La variable aléatoire nominale permet de diviser les objets sondes 
en classes non ordonnables homogènes pour le caractère analysé. Si 
l'analyste connaît le caractère analysé, ses modalités possibles et 
la règle d'attribution de ces modalités, alors la variable aléatoire 
ordinale ou nominale est dite catégorisée. Telles sont les variables 
aléatoires E) (milieu social de la famille) et £ () (profession du chef 
de famille) du tableau 5.1. Si les conditions de l’expérience sont 
telles que son issue élémentaire est le comparateur 6;; qui définit 
la mesure de ressemblance (ou de dissemblance), ou une relation 
d'ordre par rapport au caractère analysé, de deux objets à et j de la 
population sondée., alors une telle variable nominale est dite non 
catégorisée, et ses valeurs observées sont représentées sous la forme 
d’une matrice de connexion *) 


A = (ô;,), bre ris n. 


Un exemple de variable nominale non catégorisée est fourni 
par la variable décrivant une expérience aléatoire portant sur divers 
couples de familles afin de les classer par rapport à leur comportement 
de consommateur (cf. par exemple [137]). 

Les problèmes de traitement statistique liés à l'étude d'un 
caractère mixte des variables aléatoires vectorielles, c’est-à-dire 


*) Dans le cas particulier le plus fréquent. les éléments 6;; ne peuvent 
prendre que deux valeurs: la valeur 1 si les objets et j se voient attribuer la 
même modalité (ou sont rangés dans la même classe) et la valeur 0. sinon. 
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aux cas où comme dans le tableau 5.1, parmi les composantes figurent 
simultanément des composantes quantitatives, ordinales et nomina- 
les, sont abordés avec plus de détails au $$ 10.2 et 10.5. 


5.4. Loi de probabilité d’une variable aléatoire. 
Population générale et échantillon 


5.4.1. Loi de probabilité. Nous savons déjà (cf. n° 4.1.3) que 
pour décrire complètement le mécanisme de l'expérience aléatoire 
étudiée, c’est-à-dire l’espace probabilisé (ou ce qui revient au même 
la variable aléatoire qui nous préoccupe), il ne sujfit pas de définir 
seulement l'ensemble Q des événements élémentaires (et, partant, décrire 
l'ensemble des valeurs théoriquement possibles de la variable aléatoire 
analysée). À cela il faut ajouter: pour le cas discret — la loi qui 
associe à chaque valeur éventuelle X° de la variable aléatoire È 
la probabilité p;, = P {& = X$} = P {w;} de son apparition; pour 
le cas continu — la loi qui associe à chaque domaine mesurable *) 
AX des valeurs éventuelles de la variable aléatoire £ la probabilité 
p (AX) = P {& € AX} de l'événement « une valeur du domaine AX 
est réalisée au cours de l’expérience aléatoire ». Cette loi, qui est 
de la forme 

op; = P{E = Xi}; (65.2) 
AX— p (AX) = P {5 € AX}, . 
s’appelle loi de probabilité ou distribution de probabilité de la variable 
aléatoire &. La signification de ce terme est claire dans un espace 
probabilisé discret, car il est question de la distribution de la pro- 
babilité 1 (c’est-à-dire la probabilité d’un événement certain) entre 
les diverses éventualités XŸ (i = 1, 2, ...). 

Il est évident que la loi de probabilité (5.2) peut ètre donnée 
sous forme tabulaire et graphique (seulement dans le cas discret) 
ainsi que par des fonctions et des algorithmes (les principales formes 
de définition des lois de probabilité et les exemples de leurs notations 
analytiques sont exposés au chapitre 6). 

Citons quelques exemples de lois de probabilité définies par des 
tableaux et des graphiques. 

Une analyse statistique minutieuse de la pollution d’un échantil- 
lon par les pièces défectueuses (exemple 4.5) a permis de construire 
la distribution suivante des probabilités d'une variable aléatoire & 
exprimant le nombre de pièces défectueuses trouvées dans un échan- 


*) Le domaine AX s'appelle mesurable si les issues élémentaires w. corres- 
pondant aux valeurs de ce domaine, forment un sous-ensemble mesurable ou un 
événement. c'est-à-dire un sous-ensemble appartenant au système C de tous les 
événements possibles (cf. n°S 4.2.1 et 4.2.2). 
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tillon de taille N — 30 prélevé au hasard dans une population pro- 
duite en série (tableau 5.2): 


Tableau 5.2 


(A 
Ti 


1000.p; | 42 [141122812361 177 | 102! 47 | 48 | 6 


Les valeurs des probabilités du tableau 5.2 sont données au mil- 
lième près, c'est pourquoi le fait que leur somme soit égale à 0,998 
(au lieu de 1) admet une explication simple: le défaut 0,002 est 
« réparti » entre les valeurs 10, 11, . .., 30 avec une probabilité 
inférieure à 0,0005 pour chaque valeur. 


D; = PÉ = x) 


0,25 
020 
015 
010 
005 
x? 
0 / 2 535 4 5 6 7 8 9 7/0 /!/.. ‘! 
0 n 0 
TJ A! AS AP Af A TP TS TS TD A ee. 


Fig. 5.2. Représentation graphique de la loi de probabilité du nombre de pièces 
défectueuses, découvertes dans un lot de 30 unités tirées au hasard dans une 
production en série 


” Cette loi de probabilité peut être représentée graphiquement 
ig. 9.2). 

La représentation géométrique de la loi de probabilité d’une 
variable aléatoire discrète s’appelle souvent polygone de distribution 
ou polygone de fréquence. 

Considérons maintenant une partie du tableau 5.1 en ne retenant 
que deux des onze composantes: la qualité des conditions de loge- 
ment ë®) et le revenu moyen par personne E{f). Simplifions davantage 
le schéma en passant de la variable continue E(® à son analogue 


discret E(6 en renonçant à la connaissance exacte du revenu moyen 
par personne dans chaque famille et en se limitant à trois modalités : 


88 FONDEMENTS MATHÉMATIQUES DE LA THÉORIE DES PROBABILITÉS 


, .,» (6) 
la famille a un revenu bas (modalité x) ), un revenu moyen (moda- 


lité 28) et un revenu élevé (modalité z 6). En tenant compte des 


modalités attribuées à la qualité des conditions de logement : {°° pour 
mauvais; 26) pour satisfaisant ; 2%)" pour bon et 2{°° pour très bon, et 
de l'analyse statistique effectuée, on obtient la loi de probabilité 


suivante pour la variable aléatoire bidimensionnelle (:(9, 23) (les 
données sont arbitraires): 


Tableau 5.3 


Le polygone de fréquence correspondant est représenté sur la 
figure 5.3. 

La loi de probabilité d’une variable aléatoire multidimension- 
nelle s’appelle multidimensionnelle ou conjointe. Si chaque compo- 
sante EE) (k — 1, 2,..., p; cf. (5.1)) de la variable £ analysée est 
discrète et prend un nombre m, fini de valeurs, il est évident que le 
nombre total de « valeurs » du vecteur aléatoire E sera égal à m — 
= MM... .-Mmp. Dans ce cas, au lieu de l'indexation générale de 
toutes les valeurs XŸ, (ë = 1, 2,..., m)il est plus commode d'utiliser 
une indexation p-dimensionnelle de la forme ij . . . q, où le premier 
indice à représente la i-ième valeur éventuelle de la première com- 
posante, le second indice jÿ, la j-ième valeur éventuelle de la deuxième 
composante, etc. Alors X°;..., désignera la valeur éventuelle de & 
obtenue en combinant la i-ième valeur éventuelle de la composante 
(4), Ja j-ième valeur éventuelle de la composante &l), ..., la 
g-ième valeur éventuelle de la composante £ (”), et de désigner les 
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probabilités PI{E = X35;...4} Par Pis... Donc, le tableau 5.3 repré- 


sente les probabilités p;, = P {E9 — 20), 20 = 287. 

Souvent il est nécessaire de connaître la loi de probabilité d’une 
partie seulement des composantes de la variable”aléatoire vectorielle 
analysée. C’est ainsi que la variable & du tableau 5.1 se décompose. 
naturellement en deux sous-vecteurs: £, = (EU), ..., £(6)) et £, — 
— (EM), ..., EG) décrivant respectivement les caractères socio- 
démographiques et la structu- 
re de la consommation de la 
famille. 

La loi de probabilité. mar- 
ginale d’un sous-vecteur E, 
d’une variable. aléatoire vec- 
torielle E — (E,, £.) décrit la 
répartition des probabilités de 
£, dans le cas où les valeurs 
de £, ne sont astreintes à 
aucune condition. Dans le cas 
discret, ces probabilités sont 
définies par les formules : 


pi. = P{E=X"}= 
=D Pix rex): 
? (5.3) 
p.;=P{È=Xx9"}= 


a : , Fig. 5.3. Polygone de fréquence de la loi: 
= D P{H=X",E—XÉ%)")  bidimensionnelle des familles suivant 
i les conditions de logement (E(@)) et le- 


æ LA 
(5.3 ) niveau des revenus (£(6)) 


où X{” et X°” représentent Cpi= P{ÈU) = 7600, 59) = 7100)) 

les i-ième et j-ième valeurs 

éventuelles des variables vectorielles £, et £, respectivement. 
Les formules (5.3) et (5.3’) résultent directement du théorème- 

d'addition des probabilités (4.9”) si l’on tient compte des relations. 

évidentes suivantes entre les événements considérés : 


Ein Xe A; Be Xe x, EXP 
= XF} = {£ = xf ; É— UE {E = x£° ; = X5 7} | 


Dans l'exemple envisagé (cf. tableau 5.3) les probabilités margi- 


nales p;. = P {6 — 187} et p.3 = P {6 = 25) sont calculées. 
à l’aide des formules (5.3) et (5.3”) et définissent respectivement la: 
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répartition des familles séparément d’après leurs conditions de loge- 
ment et d'après leur revenu (ces probabilités sont citées respective- 
ment dans la dernière ligne et la dernière colonne du tableau 5.3). 

La loi de probabilité conditionnelle du sous-vecteur Ë, d’une va- 
riable aléatoire vectorielle Ë = (£,, £,) sachant que le sous-vecteur £, 


prend la valeur X er est donnée par la formule 
PK) = PH = XI" BE =X"}— 
P{a=X0"; = 2x0) 


PR PV) 
De façon analogue, 
Pi(AN)=P{È=X$"|E=XT}= 
MAC RRE ASS 77) 54) 
P {= x(9°} Pi.” 


Les formules (5.4) et (5.4) découlent directement du théorème 
de multiplication des probabilités (4.11). 


Si, par exemple, l’on s'intéresse à la répartition conditionnelle 
d'un groupe de familles à revenu élevé par rapport à la qualité de 


leurs conditions de logement, c’est-à-dire à la répartition p.; (r$”) — 


= P {ES = al (6) — 249)", alors les calculs effectués sur les 
données du tableau 5.3 à l’aide de la formule (5.4) nous conduisent 
aux résultats: 


T6) 0,01 =. 
p.1(23 En 


2 = 0,10; 


P: 2 (25 )= + 5. = 
p.3(25")= ù Fe = 0,35 ; 


6 0,10 
D. 4 (z$ = ü 0,20 = 0, 50, 
qui s’interprètent comme suit: parmi l'ensemble des familles à 
revenu élevé, 5 % vivent dans de mauvaises conditions de logement, 
10 © QE dans des conditions satisfaisantes, 35 %, dans de bonnes et 
50 ‘%, dans d'excellentes. 


9.4.2. Population générale et échantillon. Ainsi, les lois qui ré- 
gissent la variable aléatoire étudiée sont entièrement tributaires des 
conditions de son observation (ou de l’expérience) et sont définies 
mathématiquement par l’espace probabilisé correspondant {Q, C, P} 
ou, ce qui revient au même, par la loi de probabilité correspondante. 
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Mais dans les analyses statistiques il semble plus commode d'opter 
pour une autre terminologie liée à la notion de population générale. 

On appelle population générale l'ensemble de toutes les observations 
possibles et imaginables (ou de tous les objets imaginables observés) 
susceptibles d'être réalisées sous les conditions données. Etant donné 
que la définition parle de toutes les observations possibles et imagi- 
nables (ou de tous les objets), la notion de population générale est 
une notion mathématique abstraite qu'il importe de ne pas confondre 
avec les populations réelles soumises à une étude slatistique. Ainsi, 
si l’on analyse mème toutes les entreprises d'un secteur avec pour 
objectif l'enregistrement des valeurs caractérisant leurs indices tech- 
niques et économiques, on peul traiter la population sondée seule- 
ment comme le représentant d'une population hypothélique plus 
large d'entreprises susceptibles de fonctionner sous les mêmes con- 
ditions *). 

Dans la pratique, il est plus commode de travailler sur les objets 
observés que sur leurs caractères. Nous prélevons pour les éludier 
des machines, des échantillons géologiques, des personnes et non 
les valeurs de leurs caractères. Par ailleurs, la théorie mathématique 
ne fait pas de distinction entre les objets et l’ensemble de leurs 
caractères et dissipe l’ambiguité introduite par la définition. 

Nous voyons que la notion mathématique de « population géné- 
rale » de même que les notions d’« espace probabilisé », de « variable 
aléatoire » et de «loi de probabilité » dépendent entièrement des 
conditions d'observation (ou de l'expérience), donc on peut dans un 
certain sens considérer ces notions mathématiques comme synonymes. 
Une population générale est dite finie ou infinie selon que celle de 
toutes les observations imaginables est finie ou infinie. 

De cette définition il résulte que les populations générales con- 
tinues (composées d'observations de variables continues) sont toujours 
infinies. Les populations générales discrètes peuvent, elles, être aussi 
bien finies qu'infinies. Considérons l'exemple suivant (cf. n° 4.1.3): 
on analyse un lot de V pièces à la qualite; les pièces sont réparties 
en pièces de {-re. 2-ème, 3-ème et 4-ème qualité; la variable aléatoire 
£ est le numéro de la qualité d’une pièce prélevée au hasard ; l’ensem- 
ble des valeurs éventuelles de la variable aléatoire E est composé 
de quatre points (1, 2, 3 et 4). Il est évident que nous avons affaire 
ici à une population générale finie (au total, N observations imagi- 
nables). 

La notion de population générale infinie est une abstraction 
mathématique au même titre que la possibilité de répéter une infinité 


*) Il importe de faire une distinction entre l'ensemble de toutes les obser- 
vations imaginables et celui de toutes les valeurs imaginables (ou théorique- 
ment possibles) de la variable aléatoire E,; les observations sont généralement 
en plus grand nombre, puisque à toute valeur possible X peuvent correspondre 
plusieurs ou même un nombre infini d'observations imaginables. 
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de fois la mesure d’une variable aléatoire. La population générale 
infinie peut être traitée approximativement comme le cas limite 
d’une population finie dont le nombre des objets étudiés sous des 
conditions données croît indéfiniment. Si dans l'exemple ci-dessus 
on remplace le lot de Ÿ pièces par une production en série des mêmes 
pièces, on sera conduit à la notion de population générale infinie. 
Pratiquement cela revient à exiger que V —+ co. 

Un échantillon d’une population générale donnée est le résultat 
d'une suite finie d'observations X,, X,...., X, d'une variable aléatoire 
£. L'échantillon peut être rezardé comine une sorte d’analogue em- 
pirique de la population générale. ce à quoi nous sommes le plus sou- 
vent confrontés, puisque le sondage de la population générale soit 
est trop compliqué (pour de grands Ÿ'), soit est. impossible (ponr 
infini). Le nombre #7 d'observations s’appelle faille de l'échantillon. 

Si la taille »# est grande (n7 >> 50) et la variable aléatoire étudiée, 
continue et à une dimension (ou bien discrète, à une dimension et 
prenant un nombre de valeurs assez élevé, disons, plus de 10), il 
est souvent plus commode, dans la perspective d'une simplification 
du traitement statistique des résultats des observations, de passer 
aux données « groupées » d'échantillonnage. Ce passage s’effectue 
généralement de la manière suivante: 

a) on relève la plus petite valeur, x,.,, (n), et la plus grande, 
Tmax (2), dans l'échantillon; 

b) on subdivise l'intervalle [xz,in (#7). zna, (n)] qui s'appelle 
étendue de l'échantillon en un nombre s donné d’intervalles de groupe- 
ment égaux; le nombre s ne doit pas être inférieur à 8 — 10 et supé- 
rieur à 20 = 25: le choix du nombre d’intervalles s dépend essentiel- 
lement de la taille » de l'échantillon ; pour avoir une idée approxima- 
tive de la valeur de s, on peut se servir de la formule 


s = log: n + Î 


qu'il faut plutôt comprendre comme une formule définissant un 
minorant de s (surtout pour 7 grand): 

c) on repère les bornes de chaque intervalle. c'est-à-dire les 
points Co. Cy, Co, + - -, €, dans leur ordre de croissance, ainsi que les 
points milieux x?, x, . . .. x: 

d) on fait le compte des données d'échantillonnage comprises 
dans chaque intervalle: il est évident que la somme v, —+— vs + ... 
... + v, des nombres de ces données est égale à x: les données 
d’échantillonnage qui sont confondues avec les bornes des intervalles 
sont soit uniformément réparties sur les deux intervalles voisins 
respeclifs, soil par convention rapportées à l’un d'eux, celui de 
gauche pour fixer les idées. 

Cette procédure de groupement peut ètre modifiée en fonction 
de la teneur du problème abordé (dans certains cas, par exemple, on 
aura intérêt à nrendre des intervalles de groupement inégaux). 
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On adoptera les notations ci-dessus dans tous les raisonnements 
ultérieurs faisant intervenir des données d'’échantillonnage. 

On rappelle que les méthodes statistiques sont destinées à analy- 
ser les caractères d’une population sur un de ses échantillons. 

Un problème important dont la solution conditionne la crédi- 
bilité des résultats fournis par le traitement statistique des données 
initiales est le problème de représentativité de l'échantillon, c'est-à-dire 
le problème de savoir dans quel degré sont présents dans l'échantillon 
les caractères de la population générale auxquels on s'intéresse. Un 
même groupe d'objets peut être interprété comme un échantillon 
prélevé dans des populations différentes. Ainsi, un groupe de familles 
vivant dans des copropriétés rattachées à un Office du Logement 
d'un arrondissement peut être, dans le cadre d'un sondage sociologi- 
que. traité soit comme un échantillon de la population générale des 
familles vivant dans des copropriétés gérées par un Office de Loge- 
ment donné, soit comme un échantillon de la population générale 
des familles d’un arrondissement donné, soit comme un échantillon 
de la population générale des familles de la ville, soit enfin comme 
un échantillon de la population générale des familles de la ville 
habitant des copropriétés. Les résultats du sondage s'interprètent 
différemment selon que le groupe de familles prélevé fait partie de 
telle ou telle population générale, selon aussi la population générale 
pour laquelle il est représentatif. La réponse à ce problème est liée 
à plusieurs facteurs. Notamment dans l'exemple ci-dessus à la pré- 
sence-absence d’un facteur spécial (éventuellement latent) définissant 
le rattachement de la famille à un Office de Logement donné ou à 
un arrondissement (ce facteur pourrait être le revenu moyen de la 
famille, la position géographique de l'arrondissement dans la ville, 
l'e âge » de l'arrondissement, etc.). 


5.4.3. Principales méthodes d'organisation de l’échantillonnage. 
Dans l'estimation de la représentativité d'un échantillon entrent en 
ligne de compte et le procédé de prélèvement de l'échantillon et le 
degré avec lequel la répartition des variables principales analysées 
dans l'échantillon est caractéristique pour la population générale. 
Le premier moyen d'accroître la représentativité, c'est-à-dire de 
réaliser un tirage parfaitement aléatoire, est souvent difficile sur le 
plan organisationnel. Par ailleurs, la combinaison d'un tirage aléa- 
toire et d'un tirage régulier est parfois plus payante. En tout cas, 
la méthode de collecte des données initiales doit être minutieusement 
élaborée et entièrement décrite dans le compte rendu. 

L'utilisation des répartitions des principaux critères dans l’échan- 
tillon et dans la population générale pour estimer la représentativité 
présente ses propres difficultés dont certaines revêtent un caractère 
typiquement statistique: petite taille de l'échantillon, mauvaise 
élaboration des méthodes de comparaison des distributions conjointes, 
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etc., d’autres, un caractère organisationnel: en effet, on n'est pas 
toujours fixé a priori sur les variables dont il faut comparer les ré- 
partitions pour démontrer la représentativité. 

Décrivons maintenant les principales méthodes d'organisation de 
l’'échantillonnage. 

Tirage aléatoire simple. Ce procédé consiste à tirer »# objets d’une 
population générale de taille V. On obtient ainsi CY échantillons 
équiprobables. En pratique, les objets de la population générale 
sont numérotés de 1 à V, puis les objets de l’échantillon sont prélevés 
l'un après l’autre à l’aide d’une table de nombres aléatoires ou de 
tout autre méthode de tirage équiprobable (par exemple, une urne de 
N boules numérotées de 1 à Y). Ce tirage est dit aléatoire ou proba- 
biliste. 

Le tirage simple à l’aide d’une procédure régulière sans conséquence 
sur le problème étudié remplace souvent le tirage aléatoire. En méde- 
cine, le tirage peut ètre effectué d'après le jour de la semaine, ce qui 
est commode sur le plan de l’organisation; dans les sondages socio- 
logiques, d'après les initiales des noms de famille des personnes ratta- 
chées à un Office de Logement donné, etc. Ces tirages sont dits méca- 


niques. 
La stratification consiste à subdiviser la population générale 
initiale de taille V en sous-populations de taille W,, :V,, . . .. V», 


deux à deux disjointes, c'est-à-dire telles que , + W, +...+V, — 
— N. Les sous-populations s'appellent strates. Lorsque les strates 
sont définies, on extrait de chacune d'elles un échantillon aléatoire 
simple respectivement de taille »,, n,, ..., nA. Pour tirer entière- 
ment parti des strates, il faut connaître les valeurs de W;/V. Le 
tirage stratifié est utilisé lorsque les strates sont homogènes en ce sens 
que les objets qui les composent présentent des caractères voisins 
(dont les valeurs moyennes peuvent être déterminées sur de petits 
échantillons); lorsque la population générale doit être analysée avec 
la même minutie à travers toutes ses strates ; lorsque, pour des raisons 
d'organisation, les méthodes de tirage dans les strates sont diffé- 
rentes. Ces échantillons sont dits stratifiés. 

Un cas particulier de tirage stratifié est la méthode qui consiste 
à sélectionner les strates d’après un critère indirect lié d'une certaine 
manière au critère étudié. Ainsi, pour obtenir un échantillon stra- 
tifié lors de l’étude du revenu moyen par personne dans une famille. 
on peut préalablement diviser la population de familles en groupes 
homogènes par rapport à un quelconque caractère socio-économique 
du chef de famille (par exemple, le salaire). Dans ces cas, on parle 
de méthode de tirage typique et respectivement d'échantillons 
lypiques. 

Les méthodes de tirage par grappes sont mises en œuvre lorsqu'il 
est plus commode de travailler non pas sur des éléments isolés, 
mais sur plusieurs, liés entre eux dans le temps ou dans l’espace. 
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Cet ensemble forme une « grappe » et les éléments « les graines » de- 
la grappe. Ainsi, le mode d'administration par régions et le caractère 
de la gestion administrative plaident en faveur d'un sondage con- 
tinu d'unités régionales (immeubles, quartiers) et non pas de familles 
isolées. 

L'échantillonnage combiné à plusieurs degrés consiste à distinguer 
en cascade plusieurs degrés et à appliquer à chacun d'eux une mé- 
thode de tirage. Si par exemple l’on étudie les conditions de vie et 
la structure des familles d’une ville, le premier degré consistera à 
définir les arrondissements par un tirage aléatoire, le deuxième, à 
désigner les Offices de logement par un tirage mécanique, le troi- 
sième, à sélectionner les immeubles par un tirage par grappes. 

La théorie et les méthodes de sondage sont décrites en détail, 
par exemple, dans [36]. 

Tirage séquentiel (actif). Quand on analyse des processus physico- 
chimiques et technologiques, on est souvent amené à étudier des 
relations de la forme 


où fest une fonction connue, X = (xt), . .., x(”))” un ensemble de 
variables de commande, @ un point inconnu de l'espace des paramè- 
tres (« l’état de la nature »), E une erreur aléatoire de moyenne nulle. 
On demande d'apprécier @ en un nombre minimal d'expériences 
aux points X,, X:,..., X, du domaine À? des valeurs admissibles 
de X. Les expériences peuvent être effectuées en tout point X du 
domaine À??. Dans ces conditions, après chaque série d'expériences. 
on traite les données recueillies pour déterminer la série suivante 
de points X qui contient le plus d’information sur © ; on répète les 
expériences en ces points pour trouver une nouvelle estimation de 9 
et une nouvelle série de points À, et ainsi de suite. Pour spécifier 
que les points X ne sont pas choisis au petit bonheur, ces expériences 
sont dites actives. Pour plus de détails sur les problèmes de ce type, 
voir, par exemple, [52]. 


5.5. Méthodes de définition de la loi de probabilité : 
fonction de répartition, densité de probabilité 
et leurs analogues empiriques 


5.5.1. Fonction de répartition d’une variable aléatoire à une 
dimension. On a vu plus haut (cf. $ 5.4) que toute population géné- 
rale (variable aléatoire) est définie par sa loi de probabilité p (AX). 
Etant donné que les domaines AX peuvent être généralement. des 
sous-ensembles de même nature, la question suivante se pose : quelles 
sont les méthodes de définition des fonctions numériques p sur AX 
qui sont assez commodes sur le plan pratique ? 

Il s'avère que pour décrire la répartition de variables aléatoires & 
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à une dimension, il suffit de se donner un procédé de calcul des pro- 
babilités p (AX) = P {ë € AX } uniquement pour des sous-ensembles 
AX d'un type spécial, plus exactement, pour des intervalles semi- 
ouverts à droite: 


AX = (Ts xl 


OÙ Znin eSt la plus petite valeur de la variable aléatoire £ (cette 
valeur peut éventuellement être égale à —c), x une valeur « couran- 
te» (c'est-à-dire définie par nous) possible de &. La probabilité 
P ([tminr ZA) = P {E << x} est définie de façon unique par la donnée 
de l'extrémité droite de l’intervalle, c'est-à-dire par le nombre x, 
æet peut donc être interprétée comme une ordinaire fonction de x. 

La fonction de répartition des probabilités (ou fréquence cumulée) 
F; (x) d'une variable aléatoire £ est une fonction qui associe à toute 
valeur donnée x la valeur de la probabilité de l’événement {E << x}, 


Soit 
Fes) =P{E<z)} (5.5) 


Dans la suite, si aucune confusion n’est à craindre, on omettra 
l'indice £ de la fonction F et on l’appellera simplement fonction de 
répartition. 

Etudions le comportement de la fonction de répartition. Signa- 
lons tout d’abord que dans le cas discret l'événement À (x) = {E x} 
est com posé de tous les événements élémentaires w; = {E = zi} 
tels que zf < x. En vertu de la définition de la probabilité d’un 
événement composé (cf. n° 4.1.3), on obtient 


F(D=P{E<:}= À P{=}= EL pm (5.5’) 


i:x;<x i:xî<x 


{la sommation est effectuée sur tous les à, tels que x? << x). 

Sur (5.5°) on voit que la fonction F (x) est en escalier, la valeur 
de chaque saut étant égale à p; = P £E = 19}. 

La situation est différente lorsque la variable aléatoire ë est 
continue. La plupart des variables aléatoires continues, dont l’étude 
présente un intérèt pratique, sont telles que pour tout intervalle 
Az les probabilités P {£ € Az} tendent vers 0 lorsque Az tend vers 0, 
donc, les probabilités que £ prenne des r'aleurs isolées x sont nulles 
(un exemple analogue est cité au n° 4.2.2 dans le problème du son- 
dage des experts). [Il est aisé de comprendre que les fonctions de 
répartition de telles variables aléatoires sont continues. La figure 5.4 
représente les graphiques des fonctions de répartition des variables 
aléatoires envisagées dans les exemples 4.1, 4.2, 4.5 (compte tenu 
du tableau 5.2) et dans l’exemple du sondage des experts (cf. 
n° 4.2.2). 

De la définition de la fonction de répartition on déduit immé- 
diatement les propriétés suivantes. 
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a) Fy (x) est une fonction croissante de z; 

b) F£ (x) = 0 pour tous les x < zmin; 

c) F£ (x) = 1 pour tous les x > z,,, (Znin ©t Tmax Sont respecti- 

vement Les valeurs minimale et maximale de la variable aléatoire E); 
d) P {a SE <b} = Fy(b) — F}4 (a) quels que soient a et b 

(pour établir cette propriété, il faut utiliser le théorème d’addition 


072345678310 
C d 


Fig. 5.4. Représentation graphique de la fonction de répartition pour: a, le 
résultat chiffré du jet d’une pièce de monnaie (le zéro correspond à pile, le un à 
face) ; b, nombre de points obtenus en lançant un dé symétrique; c, nombre de 
pièces défectueuses, découvertes dans un lot de 30 unités tirées au hasard (cf. 
table 5.2); d, estimation par des experts incompétents de la probabilité d'un 


événement donné, cf. exemples des n°% 2.1.3 et 4.2.2 


des probabilités (cf. n° 4.1.3) et le fait que les événements À — 
= {E La}, B = {EE <b} et C = {a LE <Lb} sont liés par la 
relation B = À + C). 

La forme exacte de la fonction de répartition est généralement 
inconnue dans la pratique statistique. On appelle analogue empirique 
(ou d’échantillonnage, c'est-à-dire construit à l’aide d’un échantil- 
lon de taille nr) de la fonction de répartition théorique F (x) la fonc- 
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tion ÊC)(x) définie par les relations 


FC (x) = 22 (5.6) 

ou si les données sont groupées (cf. n° 540) 
ÉC) (x) — MN Le | (5.6’) 
où v (x) est le nombre des valeurs de E strictement inférieures à x 
observées dans l’échantillon x, z:, . . ., x, ; v, le nombre des valeurs 


observées, appartenant au i-ème intervalle de groupement; à, le 
numéro du plus à droite des intervalles de groupement dont l’extré- 
mité droite est inférieure à x. La définition de la fonction de répar- 
tition empirique permet d'expliquer l’appellation de « fréquence 
cumulée » qui est souvent donnée à la fonction de répartition. La 
propriété de stabilité statistique des fréquences relatives (cf. $ 7.2) 
justifie l'emploi de F() (x) à titre d'approximation de la fonction 
de répartition théorique inconnue F (x) et le fait que l'erreur de cette 
approximation tend vers 0 lorsque r tend vers l'infini. Une telle 
approximation de F (x), c’est-à-dire une approximation qui n’est 
pas liée au choix préalable d’un modèle général de cette fonction *), 
est dite non paramétrique. Aux $$ 10.3 et 11.1 on trouvera de plus 
amples détails sur l’étude statistique des fonctions de répartition 
empiriques. 


9.9.2. Densité de probabilité d’une variable aléatoire à une di- 
mension. Les variables aléatoires continues, dont les fonctions de 
répartition sont partout continues et différentiables, peuvent être 
également définies par leur densité de probabilité f£ (x): 


F A)— F: 
f: (x) — lim ÈER, ETS lim Fe mit | (5.7) 
A—0 A0 
ou, ce qui est équivalent, 
fa (&) = FE (), (5.7) 


autrement dit, f£ (x) est la dérivée de la fonction de répartition 
F: (x) au point x. Des relations équivalentes (5.7) et (5.7”) on déduit 
immédiatement les propriétés suivantes de la densité de probabilité 
fs (x): 

a) f: (x) > 0, puisque F4 (x) est croissante; 

b) P {EE = [z, z + AD & Je (x): A pour les petits A (ceci résulte 
de la comparaison des deux préœiers membres de l'identité (5.7)); 


c) PE Emi z[}= Fe (x) = f (u) du pour tout z; 
Tmin 


*) Le chapitre 6 traite des fonctions de répartition les plus fréquemment 
utilisées en statistique. 
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Xo+à 


d) P {€ [ro To + A(}= FE (0 + A) — F3 (20) = À f(u) du pour 


tous x, et À; 
max 
e) PE Elmins Zmx= | f(rdr=1. 
| Xmi | 

Attardons-nous sur quelques propriétés de la densité de proba- 
bilité. 

La propriété b) permet de clarifier le sens probabiliste de la 
densité de probabilité. Ainsi, supposons, pour fixer les idées, que le 
domaine [ziuns Tma+) des valeurs possibles de la variable aléatoire 
est fini; subdivisons-le en 


intervalles de groupement 10 
À égaux et assez fins de 08 
centres 6 
à Assez 
Ti = Tin +5: 04 
02 
ZT, =2t; + À, 0 
a-Jjo a-% a-6 a a+6 a-% 
14 A, AE 
et associons à chaque inter- #64 l 4 (7; 0 0) b 


valle ÿ la probabilité de  //6.93 
réalisation de l'événement 


À À 1/6-02 
EE[at—s, 245], J/6-0,1 
probabilité qui est égale He : 
approximativement à Fr ; ne QUO 
f (x?) - A d’après la proprié- I, Zot4 


té b). Donc, les valeurs de 
la fonction Îe (x) sont pro- Fig. 5.5. (a) Fonction de répartition 
portionnelles à la probabi- Fanorm & : 2 9°) et (b) densité de probabilité 
lité que la variable aléatoi- de la loi normale fn, (r3 a. 0°) 

re Ë prenne une valeur 

voisine de z. Ceci explique, en particulier, que l’analogue discret de 
la densité de probabilité d'une variable aléatoire discrète est le polygone 
de fréquence, c'est-à-dire la suite des points de coordonnées (xŸ, Pa). 
De là, il s'ensuit notamment que la valeur la plus fréquente (dite 
encore mode ou dominante) de la variable aléatoire continue £ est la 
valeur z,,4 qui maximise la densité de probabilité, c'est-à-dire 
fe Œmoa) = Max 4 (x). 


E « 
La propriété d) admet l'interprétation géométrique suivante: 
la probabilité de l'événement {E € (xs, ro + AÎ} est (quelsé 
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z, et À donnés) égale à l’aire du trapèze curviligne de base [z,, zx, + AÎ 
situé sous la courbe de la densité y = fy (x). 

La figure 5.5 représente la fonction de répartition F4 (x; &, 6°) 
et la densité de probabilité 4 (x; &, 0?) de la loi normale (pour plus 
de détails, cf. $$ 6.1 et 7.3). L’aire hachurée de la figure 5.5, b repré- 
sente la valeur de la probabilité P {E € [x,, zo + A}. 

Les données empiriques zx;, Z2, . . ., zx, permettent de se faire 
une idée approximative de la densité de probabilité théorique incon- 
nue f£ (x). Si l’on s’intéresse à l'intervalle [z, x + AÎ et si l’on y 
a dénombré na (x) = v (x + A) — v (x) observations, il est évident 
que l’analogue empirique de la quantité 

Fa (z+A)—F: (2) 
— 7; —— & À; (2) 


sera la quantité 
v(z+A) _v(x) 


— 5 ——2 "2 je (2. (5.8) 


Il est évident que la valeur de f:"’ (x) caractérise la densité des 
observations de la variable aléatoire E au voisinage du point zx, c'’est-à- 
dire la fréquence relative des observations, rapportée à une unité 
de longueur de l'intervalle des valeurs possibles de E. Pour cette 


raison, la fonction f:"’ (x) définie par (5.8) s'appelle densité de pro- 
babilité empirique (ou d’échantillonnage). Cette circonstance justifie 
le choix de cette terminologie pour la densité théorique fx (x) dans la 
mesure où, en vertu de la stabilité statistique des fréquences (cf. 
$ 7.2), ces deux quantités se rapprochent indéfiniment lorsque 
n — oo et A—+ 0. 


Pour construire la densité de probabilité empirique f:"’{(x) 
sur son domaine tout entier de définition (c’est-à-dire pour toutes 
les valeurs possibles de la variable Ë), on se sert des données groupées 
(cf. n° 5.4.2) et l’on pose 


Cr) Ve , 
(= 1e, (5.8 
Rk(x) 

où k (x) est l'indice de l’intervalle de groupement contenant le point 
Z; Va(x) €t An respectivement le nombre d’observations apparte- 
nant à cet intervalle et sa longueur. La représentation géométrique 

de la densité de probabilité empirique s'appelle histogramme. 
Exemple 5.2. Objet du sondage: 995 abonnés au téléphone de 
la ville de Buffalo (Etat de New York). But du sondage: détermina- 
tion du nombre & de communications passées par chaque abonné 
durant une année. Dans ce cas, donc, nr = 995, x; est le nombre de 
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communications de l’abonné ài *) durant une année. Le tableau 5.4 
représente les données groupées d’après la méthode décrite au n‘ 5.4.2. 
Le nombre d'intervalles de groupement a été pris égal à 4 = 22 et 
la longueur d’un intervalle À à 50. Les graphiques des densités de 
probabilité empirique (l’histogramme) et théorique sont représentés 


Tableau 5.4 
Nombre d'observa- Nombre d'observa- 
Numéro de l'inter- tions tombant dans | Numéro de l'inter- | tions tombant dans 
va)lle de groupement l'intervalle valle de groupement l'intervalle 
envisagé envisagé 

1 0 12 116 
2 1 13 79 
3 9 14 54 
4 19 15 31 
5 38 16 41 
6 50 17 5 
7 95 18 6 
8 85 19 2 
9 115 20 | 
10 132 21 | 
11 144 2 1 


sur la figure 5.6 (pour construire approximativement la courbe repré- 
sentative de la densité théorique, on a remplacé les paramètres in- 
connus a (la moyenne) et 0° (la variance) par les valeurs des caracté- 


ristiques empiriques correspondantes & et o° (cf. $ 10.4)). 

Les méthodes de construction des densités de probabilité empi- 
riques et leur analyse statistique sont abordées avec plus de détails 
dans les $$ 10.3, 10.4, 11.1 et 11.2. 


5.5.3. Fonction de répartition et densité de probabilité conjointes. 
Indépendance statistique des variables aléatoires. Ce qui précède met 
l'accent sur la nécessité d'élaborer des méthodes commodes de défi- 
nition de la loi de probabilité d’une variable aléatoire continue: 
la forme universelle de description du «comportement » d’une 
variable aléatoire discrète £ (à condition que le nombre de ses valeurs 
possibles ne soit pas trop élevé) est le polygone de fréquence qui à 
toute valeur possible x? de £ associe la probabilité de sa réalisation 


pi = P {E = Xi}. 


*) Cf. Introduction to Frequency Curves. — Bull. Amer. tel. and telegr. 
Company, 1953, n° 1. Ceci est précisément le cas où pour le traitement statistique 
d’une variable aléatoire discrète (le nombre de communications passées en une 
année en est indiscutablement une) il est commode d'utiliser la technique d'ana- 
lyse statistique des variables aléatoires continues (passage aux données groupées, 
construction de la densité empirique, etc.), ce qui a été déjà signalé au $ 5.2. 
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Nous allons donc porter notre attention sur le cas continu. Signa- 
Jons qu’à l'inverse de la dimension un, la fonction de répartition 
multidimensionnelle 


Fo, an (EU, + 20) = P {EU Cat, EC} (5.9) 


cesse d’être une forme commode de définition de la loi de probabilité 
étudiée. 
Les analogues multidimensionnels des intervalles finis et semi- 
infinis (qui s’obtiennent par la somme et l'intersection d'intervalles 
A semi-infinis de la forme 
fx) fx) [—co, xl) sont les hyper- 
parallélépipèdes finis et se- 
mi-infinis. La fonction de 
répartition (5.9) définit la 
règle de calcul des probabi- 
lités pour des domaines 
multidimensionnels de ce 
type. Mais, si en dimen- 
sion un cela suffisait pour 
« travailler » dans l’espace 
ue probabilisé correspondant, 
SERRES en dimension nr la situa- 
” tion est différente. En par- 
Fig. 5.6. Histogramm: def, (x) et densité de  ticulier, la connaissance de 


robabilité f (x) d'une loi normale convena-  ]a seule forme (5.9) ne suf- 
lement choisie, caractérisant la répartition fit pas à résoudre le pro- 


du nombre d'appels téléphoniques passés $ SRE 
par un abonné en uno année blème, très important pour 


les applications statistiques, 

qu'est la description de 
la loi de probabilité de fonctions des variables aléatoires initiales 
EU, EG), ..., EU) (l'approche générale de la résolution de ce 
problème est décrite au $ 7.4). 

Donc, pour décrire la loi de probabilité de la variable aléatoire 
continue .ë = (£(, E(), . .., EP), on se sert de la densité de pro- 
babilité fe (29, 2%, ..., xt) qui peut être définie soit à l’aide de 
la fonction de répartition (5.9) comme suit: 

5 OPF (z{1), ..., z{P) 

RGP, 28, .., 20) = ns dzx(2) 2 (5-10) 

soit indépendamment d'elle *) comme suit : la densité de probabilité 
de la variable aléatoire & = (ED, ..., EP) ) est une fonction 


0007694 


001746 


0 000898 


= 

= S D 
S S = 
Der 


*) De même qu'en dimension un, cette description vaut uniquement pour 
les variables aléatoires continues dont la fonction de répartition (5.9) est con- 
tinue par rapport à toutes les variables à l'intérieur du domaine des valeurs 
possibles et admet dans ce domaine une dérivée partielle continue par rapport à 
toutes ses variables (on dit que Paz (xtl, ..., z'P) est absolument continue). 
Comme déjà signalé, ces variables aléatoires constituent l’écrasante majorité 
des variables présentant un intérèt pratique. 
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f (xD, ..., x) ) de p variables telle que, pour tout sous-ensemble 
(mesurable) À des valeurs possibles de £, la probabilité de l’événe- 
ment {£ E.1} est donnée par la relation 


P {€ A}-- | fe(e®, ...,2@)dztt)... dr”,  (5.10') 
A 


où l’intégration est étendue au domaine À donné de l’espace des 
valeurs possibles de E (c’est-à-dire que l'intégration dans (5.10) 
est une p-uple intégration). 

La densité de probabilité admet la même interprétation qu’en 
dimension un: la probabilité de réalisation d’une valeur de E, 
comprise dans un petit voisinage AX = {2h < EN < 2 + 
+ Az, 2) K'EI L'a9 + Ar, ..., PK EU) 2) + 
+ Az} du point X = (x), x), ..., x), est proportionnelle 
à la valeur f£ (X) de la densité de probabilité en ce point et est égale, 
en particulier, à l’e élément de probabilité » f£ (X) AX, c'est-à-dire 
que 


P {x LE) < xt) + Az), nr x(P) LE(P) < x(P) + Az} LH 
S f:(20, ..., x) Az)... Az), (5.11) 


Les analogues empiriques Fev (X) et f;"’ (X) de la fonction de 
répartition Fe (Z) et de la densité de probabilité fx (À) théoriques 
se construisent à l’aide des données empiriques X,, X,, ..., X, 
de la variable aléatoire £ comme en dimension un, soit 


Ég (X)= 92, (5.12) 
0 0) = (5.13 
Az().Az(2)....: Az(P)? -19) 


où À — (xtl,...,z(") )est la valeur qui nous intéresse de la variable 
ëE; v(9 (X) est le nombre des données empiriques X; dont les com- 
posantes vérifient simultanément les conditions 


1 € xt): 


k (X), le numéro de l’hyperparallélépipède de groupement conte- 
nant le point X, v, le nombre des données empiriques tombant dans 
le k-ième hyperparallélépipède de groupement *). 

*) L'autre méthode de construction des densités empiriques, méthode 
qui n'implique pe de passer aux données groupées, est accessible au n° 10.3.2. 


Le passage aux données #roupées en dimension n s'effectue comme en dimension 
un (cf. n° 5.4.2). Mais, pour vue ce passage ait un sens, il faut évidemment tra- 
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Les fonctions définies par les relations (5.9), (5.10) ou (5.10°) 
s'appellent respectivement fonction de répartition conjointe et 
densité de probabilité conjointe de la variable aléatoire vectorielle 
ë = (80), ..., EM). 

Pour décrire la loi de probabilité marginale d'une partie des 
composantes E, — (EN, E(2, ..., E()), s< p, du vecteur E (cf. 
n° 5.4.4) on se sert de la fonction de répartition marginale 
Fz;, (20, ..., x) et de la densité de probabilité marginale, définies 
respectivement par les formules : 


Fe, (zx), RE z(s)) = P {E (1) < x), oi E(s) < z(9)} — 
= P {EN << 70, ..., EC 709, ED oo, ..., EMI oo} — 
= Fe (z(), z(2), os xs), O0 3 co) : (5.14) 


fe (a), ..., 9) = | | . \ fe (e, … 
21571) &(8+2) x(P) 


20), 26#1),,,.,2P)dzxt#t)... dx), (5.15) 


où le signe | indique que l'intégration est étendue à l’ensemble 
x(a) 
tout entier des valeurs possibles de E( (comparer avec (5.3) et 
(5.3°)). 
La réalisation empirique des formules (5.14) et (5.15) est très 
simple: nous ne soumettrons à un traitement statistique par les 
formules (5.12) et (5.13) qu’une partie seulement des coordonnées, 


plus exactement, les points (x), 22, ..., 2%), i—1,2,...,n, 


et laisserons de côté les valeurs observées des autres coordonnées 
at5tD ,,.., 0). Géométriquement, cela signifie que nous projetons 
les points-observations de l’espace (tt), z2t°), . . ., 2€P)) sur l’espace 
engendré par les s premières coordonnées (pour p = 2, cette opéra- 
tion consiste à projeter x points-observations du plan 24) Or) sur 
l'axe Ox)). 

La densité de probabilité conditionnelle f 5 (2),20),...,29 | E = 
— C) du sous-vecteur aléatoire E, — (EU), EG), ..., E(9), sachant 
que les valeurs de l’autre sous-vecteur £, = (Et+1, E(5*2),,,., E@)) 
sont fixées au niveau C = (ct%*h), ct**2),. .., c(P)) (c'est-à-dire sachant 
que E(+*D = 5+1),,,., E@) = «P)), se définit comme les probabili- 
tés conditionnelles p;. et p.; (cf. (5.4) et (5.4”)) à l'aide du théorème 


vailler sur un bien plus grand nombre de données empiriques. En définissant les 
conditions que doit remplir la taille de l'échantillon, on tiendra compte du fait 
qu'on aura au total mm, . .. m,, hyperparallélépipèdes de groupement, où m 
est le nombre d'intervalles de groupement obtenus par quantification de l'inter- 
valle de variation des observations par rapport à la g-ième composante, c'est-à- 
dire la variable z(1) (q = 1, 2, ..., p). 
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de multiplication des probabilités (cf. n° 4.1.3, (4.11°)): 


fes (at), .., 209) | EU 2 CU#1, ,,,, EP) = cP)) = 


fe (a), .…., z8), ct), ..., c(P)) 


nn fe, (cts+1), c(s+2), = c(P)) e (5.16) 
De façon analogue, 
fe, (264), ..., 2) [ED = ct), ,,,, EG) = c5)) = 
feel), ..., et), zt5*1), ..., z{P)) 7 
= CO cG)) (5.16°} 
£a 9 ee. 


Les dénominateurs des seconds membres de (5.16) et (5.16”) sont 
les densités de probabilité marginales respectivement des sous- 
vecteurs E, — (E(*0, ..., EP) et E, = (E 0, ..., 60), calculées 
à l’aide de (5.15). 

Il existe une différence fondamentale entre la densité de proba- 
bilité marginale fr, (r1), ..., 2) et la densité conditionnelle- 
fe (0, ..., af ED = ch, ..., EU) = 4), bien que 
toutes deux décrivent la répartition d'un même ensemble de variables 
EU), ..., EG): la première densité ne dépend pas des valeurs prises. 
par les autres composantes de la variable aléatoire vectorielle analy- 
sée, et son analogue empirique se construit à l’aide de toutes les. 


observations tronquées {X, — (24), 20, ...,20)}; 4 à, tandis 


que la densité conditionnelle dépend essentiellement des niveaux 
c(##1), ,.., c@) de fixation des valeurs des autres composantes 
E (#1), .., EP), et son analogue empirique se construit à l’aide des. 
observations X,, X:, ..., X, dont les p-s dernières coordonnées 
satisfont au moins approximativement la condition {E(**) — 
— c{s#1), ass EP) = c(P)}, 

La figure 5.7 représente le graphique de la densité de probabilité 
de la loi normale à deux dimensions (qui est décrite au $ 6.1). Sur 
cette figure sont également tracées les sections de la surface repré- 
sentative de la densité par les plans 2 = c, c’est-à-dire par des 
plans perpendiculaires à l’axe OzrtŸ. Les sections sont à un facteur 
de normalisation près des lois (l’une d'elles est indiquée par une 
flèche) caractérisant la répartition conditionnelle de la composante- 
E®) sachant que EU = c. La droite OA décrit les variations de la 
valeur modale de la variable aléatoire E() dans la répartition con- 
ditionnelle de Et (sachant que £® = c) en fonction de la valeur 
fixée c. 

L'indépendance statistique de variables aléatoires E;, E, . .., Er 
(qui peuvent être discrètes ou continues, scalaires ou vectorielles} 
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se définit à l’aide de la notion d’indépendance d’un système d’événe- 
ments (cf. (4.12) et (4.13)). On dit que des variables aléatoires 
Æs 80 + + +, Ba Sont statistiquement indépendantes si pour tous domaines 


Xe 4) £®) 64 Z 2) 


Fig. 5.7. Surface de la densité de probabilité à deux dimensions de la loi nor- 
male tronquée 


(mesurables) A,, A3, ..., An de leurs valeurs possibles, on a les 
relations 
P {Si € A1, E2 € A9 +. Er € Ar} = 
= P{E € Ai}... P{ExE Anh (6.17) 
En termes de probabilités Piis.i (pour les variables aléatoires 
discrètes) et de densités de probabilité f5,...5, (X®, ..., X() 
(pour les variables continues), la condition (5.17) est équivalente à: 


Piüise.. L=P{E=X4, 7 E=Xx}— 


th 
= P{=X(")... PE =XŸ":; (517) 


feu 8 (40, ..., X) = fe, (XU0) fe, (XE)) fe, (X0). (5.177) 


5.6. Principales caractéristiques numériques 
des variables aléatoires et leurs analogues empiriques 


Ainsi, la loi de probabilité qui nous intéresse peut être décrite de 
façon exhaustive soit par le polygone de fréquence dans le cas discret, 
soit par la fonction de répartition ou la densité de probabilité dans 
le cas continu. Mais en pratique, on peut se contenter d’une information 


CH. 5. VARIABLES ALÉATOIRES 107 


bien plus. modeste sous forme de quelques caractéristiques permettant 
d'estimer des propriétés telles que le centre de groupement des 
valeurs de la variable aléatoire étudiée, la mesure de leur dispersion 
aléatoire, le degré d’interdépendance des diverses composantes de 
la variable aléatoire vectorielle analysée. Ainsi, quand on étudie 
la loi de répartition du salaire, on s'intéresse en premier lieu au 
salaire moyen et à l’une des mesures de sa dispersion aléatoire: le 
coefficient de différentiation ou variance. De plus, la plupart des lois 
de répartition utilisées dans les applications statistiques (les lois 
binomiale, de Poisson, de Pareto, normale, log-normale, exponen- 
tielle, etc., cf. chap. 6) peuvent être déterminées sans ambiguïté à 
l’aide d’une ou deux caractéristiques numériques, par exemple la 
moyenne et la variance. 


9.6.1. Notion d’espérance mathématique et de moment. On con- 
sidérera diverses fonctions g (£) d’une variable aléatoire E — £ (w) 
(si & est une variable aléatoire scalaire, il est possible que g (ë) = Ë). 
Il est évident que la fonction g (£ (w)) est une variable aléatoire, 
puisque c’est une fonction qui est définie sur l’ensemble des événe- 
ments élémentaires w. La moyenne de la variable aléatoire g (E), 
prise en tenant compte de la « pondération » correspondant à la loi 
de probabilité de £, s’appelle espérance mathématique de g (ë) et se 
note Eg (£) *). Donc, 

si £ est une variable aléatoire (scalaire ou vectorielle) continue 
de densité de probabilité (conjointe) f: (X), alors 


Eg (= | 8(X)f:(X) 4x (5.18) 


(l'intégration est étendue au domaine de toutes les valeurs possibles 
de la variable E); 

si & est une variable aléatoire discrète prenant les valeurs X? avec 
les probabilités p, (à = 1, 2, . ..), alors 


Eg (5) = 2 8 (Xt)-pr- (5.18') 

L'analogue empirique (c'est-à-dire construit à l'aide des valeurs 

observées X,, X 2, - - ., Àh) de l'espérance mathématique de la fonction 
g (&) est la quantité **) 


D = D e(X). (5.19) 


ii 


*) Si g (&) est une fonction vectorielle, c'est-à-dire que g (£) = (gt) (E), 
g@) (E),..., g(P) (E)), la moyenne pondérée porte sur les composantes. 
**) Ici et dans la suite la barre horizontale désignera (sauf indication con- 
traire) la moyenne « arithmétique » ordinaire (sur toutes les valeurs observées) 
de l'expression qu'elle surmonte, 
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Tout passage des caractéristiques théoriques, c’est-à-dire des 
caractéristiques calculées d’après la connaissance exacte de la loi 
de répartition analysée, aux empiriques (d'échantillonnage) s'explique 
par le fait que l’échantillon est interprété comme un modèle réduit 
de la population générale dont les valeurs possibles sont les valeurs 
observées (c'est-à-dire réalisées) X,, X,, . . ., X, et les probabilités 
de réalisation de ces dernières, les fréquences respectives de leur 


apparition dans l'échantillon, c’est-à-dire des quantités égales à A 


Les fonctions gx (E) — E* et gl (E) = (E — EE)" (k = 1, 2,...} 
jouent un rôle important dans la théorie et la pratique des recherches 
statistiques. Les espérances mathématiques des fonctions gx (ë) et 
gx (E) s'appellent respectivement moment initial et moment centré 
d'ordre k de la variable aléatoire E. 

Donc, si pour un entier k > 0, la fonction z* est intégrable de 
poids f£ (x) (est sommable de poids p;) sur le domaine des valeurs 
possibles de £, la quantité 


| 2} f: (x) dx si E est continue; 
Mr — Et! — (5.20} 
D (zx) -p, si E est discrète 
s'appelle moment initial d'ordre x ou simplement k-moment de £ 
ou de sa loi, et l’on dit que ce moment existe ou est fini. 
Il est évident que si le moment m, existe, il en est de même du 
moment centré 


mi = E (Em) = 


| (x—m,)* f(z)dz si E est continue; 
= (5.21) 
2: (im) "pi si E est discrète. 


En développant (zx — m,)* sous le signe d’intégration (ou de 1æ 
somme), on établit sans peine les relations suivantes entre les moments 
initiaux et centrés : 

mi =0; 
MS = MM ; 
ms, °= Ms — 3MmiMm + 2m ; (5.22) 
mi = m,—4mims + 6mim, — 3m; 
(on s’est limité aux quatre premiers moments). 


Les analogues empiriques des moments initiaux et centrés (les 
moments empiriques) se déduisent sans peine de (5.20) et (5.21) en 
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tenant compte de (5.19): 


ma (n) = D 2 ; (5.20') 
1m! 
min) =+ D (am (n)}. (5.21") 


i=1 


Enfin, dans l’étude des variables aléatoires vectorielles E — 
= (EM, £@), ..., EM) un rôle important est occupé par les fonc- 
tions vectorielles g (E) — (gt (E), ..., g(P*) (E)) dont les composan- 
tes sont tous les produits deux à deux des composantes centrées de Ë, 
c'est-à-dire les éléments de la matrice 


Q= (Qij)i, 5=1, ..., ps 
où 


Qu = (EC) = mi) (EU) — m)). 


Les espérances mathématiques des éléments g;, s'appellent géné- 
ralement moments mixtes d'ordre deux ou covariances de E, et la 
matrice 


» (Egu), 5m1, ..., po (5.23) 
composée des covariances 


cov (ED, E)) = Egi; = E {(E —m{D) (E0)—mG}}= 01 (5-24) 


matrices des covariances de E. 

Par définition, les matrices des covariances sont toutes symétriques 
{c'est-à-dire que 6;; = 0j); il est immédiat de prouver qu'elles 
sont semi-définies positives. En effet, en prenant une suite de réels 
Li, las + + +, t quelconques et en tenant compte du fait que la quantité 


positive E ù t, (EU) — m{®))? peut être représentée par Îa forme 
{mi 


D 
quadratique Ÿ Oyjti-ts, on établit la semi-définition positive 
{mi j=1 


de la matrice ©. 


9.6.2. Caractéristiques du centre de groupement des valeurs de 
1a variable aléatoire. Pour caractériser le centre de groupement des 
valeurs de la variable aléatoire étudiée, on se sert en statistique de 
quelques types de moyennes, du mode et de la médiane. Décrivons ces 
caractéristiques numériques. 

La moyenne théorique EE de la variable aléatoire E se définit comme 
le moment initial d'ordre un ou, ce qui est équivalent, comme l'espé- 
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rance mathématique (cf. (5.18) et (5.20)): 


| z-fr (x) dx si Ë est continue; 
Em, = 


| —— (5.25) 
DE Di si ë est discrète. 


La moyenne EË est indiscutablement la plus importante et la 
plus couramment utilisée des caractéristiques du centre de groupe- 
ment des valeurs de la variable aléatoire. En pratique, c'est-à-dire 
quand on la calcule approximativement à l’aide des valeurs empi- 
TIQUES Zy, Lo, + + -» Tn, On la remplace par la moyenne empirique 
(d’échantillonnage) (cf. (5.20°)): 


z(n)=m(n)= + D 2. 
i= 1 


Les principales propriétés de l'espérance mathématique résultent 
directement de sa définition : 

a) Ec = c, où c est une variable non aléatoire quelconque; 

b) E (cé) = c-EE; 

C) E(i+é:+...+Ex) = Eh + Els +... + EË,,; 

d) E (£-n) = EË-En si les variables aléatoires E et n sont indé- 
pendantes (cf. n° 5.5.3). 

La moyenne géométrique (théorique) G (E) d’une variable aléatoire 
Ë se définit (pour des valeurs possibles de E > 0) à l’aide de la 
ormule 


G(E)=er tnt, 


oùe 2,11828 . . . L'analogue empirique de G (E), la moyenne géo- 


métrique 6: (£), se calcule sur les valeurs d'échantillonnage z;, ze, . .. 
°.-, In à l'aide de la formule 


Gn ED) =V 2-22. œne 
On démontre que la moyenne géométrique G (£) et son analogue 


empirique G, (£) sont toujours strictement inférieurs respectivement 
à EE et zx (n). | 

La moyenne géométrique s'applique au calcul de la vitesse de 
variation des variables et, notamment, dans les cas où la variable 
est directement proportionnelle à la valeur qu'elle prend à l'instant 
considéré (par exemple, effectif d’une population) ou dans les cas où 
l'on a affaire à une moyenne de rapports, par exemple, dans le calcul 
des indices des prix. 

La moyenne harmonique (théorique) H (E) d’une variable aléatoire 
E est définie (uniquement pour les variables Ë prenant des valeurs 
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strictement positives) par la relation 


L'analogue empirique À, (£) se calcule sur les données d’échan- 
tillonnage z,, z;, .. , x, à l’aide de la formule 


Fa E = ——. 


ñn 


1 1 


n À 7 
ii 

La moyenne harmonique est souvent inférieure à la moyenne 
géométrique et a fortiori à la moyenne arithmétique. Le domaine 
d'application de la moyenne harmonique est fort limité. On s’en 
sert en particulier en économie pour analyser les normes moyennes 
de temps, ainsi que dans le calcul de certains indices. 

La valeur modale (ou simplement mode) x,,4 d'une variable 
aléatoire se définit comme une valeur possible qui maximise la den- 
sité de probabilité f4 (x) (dans le cas continu) ou la probabilité 
P {E = x} (dans le cas discret). Donc, le mode est en quelque sorte 
la valeur la plus typique de la variable aléatoire, celle qui se réalise 
le plus souvent (dans les expériences ou les observations), bref, la 
valeur qui est réellement à la « mode » *). Le calcul pratique d’une 
valeur approchée du mode sur les données d’échantillonnage implique 
la construction et l’analyse des histogrammes et polygones de fré- 
quence correspondants (cf. $$ 5.5, 10.3). 

La médiane zmea de la variable aléatoire étudiée se définit. 
comme la valeur moyenne probable, c’est-à-dire une valeur qui jouit 
de la propriété suivante: la probabilité que la variable aléatoire & 
prenne des valeurs >z»«4 est égale à la probabilité qu'elle prenne 
des valeurs ze . Pour les variables dont la densité de probabilité 
est continue, il est évident que 


P {E > Tméd } = P {E << Tméd} DE 0,5, 


et la médiane peut être définie comme une valeur «4 de l'axe 
des valeurs possibles (axe des abscisses) telles que la droite parallèle 
à l’axe des ordonnées passant par Zmce partage la surface située sous 
la courbe de densité en deux parties égales (fig. 5.8). Certaines varia- 
bles aléatoires discrètes ne vérifient pas exactement la condition 


*) Le mode est une caractéristique naturelle du centre de groupement des 
valeurs de la variable aléatoire uniquement dans les cas de répartitions unimo- 
dales (à un sommet). Les répartitions multimodales (à plusieurs sommets) tradui- 
sent l’extrême inhomogéneité de la population analysée. Leur étude présente 
un intérêt immédiat pour les problèmes de classification des objets et des obscr- 
vations. 
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formulée. Dans ce cas, la médiane se définit comme un nombre za 
compris entre deux valeurs possibles voisines 2%0,5) et 20.541 telles 
0 . 0 
que Fay (zico,s) 0,5, mais Fy (tiço,s)+1) > 0,5. 

Pour déterminer une valeur (d’échantillonnage) approchée de la 
médiane Lis (r), on range les valeurs observées x,, ze, . .., 2 
dans l’ordre de grandeur 

f(x) croissante (ou en séri 
ie va- 
riationnelle, cf. n° 5.6.4), 
puis pour Znéa (2) on prend 
le ra (n + 1)-ième terme si 
n est impair, et toute va- 
leur comprise entre le 


(e se 
A  n-ième et le (+ + 1}- 
mod L'on? É .* e < 
méd ieme terme si z est pair. 
Fig. 5.8. Disposition du mode zmog, de la Si la densité (ou le po- 


médiane zméd et de la moyenne EE d'une lygone de fréquence) est 
loi dont la densité f (x) est dissymétrique symétrique, Îa moyenne 

EË, le mode z,,4 et la 
médiane Zme4 Sont confondus La 3ituation est différente pour les 
répartitions non symétriques (cf. fig. 5.8). 


5.6.3. Caractéristiques du degré de dispersion d’une variable aléa- 
toire. Chacune des caractéristiques du degré de dispersion décrites 


-6-5-4-3-2-101 234 5 6 x 


Fig. 5.9. Représentation graphique des densités (de lois normales) de même 
moyenne (nulle) et de variance différente 


plus bas — la variance, l’écart-type et le coefficient de variation — 
donne une idée sur l’ampleur de l'écart des valeurs de la variable 
aléatoire par rapport à son centre de groupement. S'agissant de la 
forme de la courbe de densité, ces caractéristiques décrivent son 


degré d’e aplatissement » sur l'intervalle de variation de E: plus la 
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valeur de chacune de ces caractéristiques est élevée, plus la courbe 
de la répartition correspondante est «aplatie » (fig. 5.9). 

La variance VE d'une variable aléatoire E se définit comme le 
moment centré d'ordre deux de E, c’est-à-dire que 


| (z— EË)?f (x) dz si & est continue; 
x 


> (zx; — EË)?.p, si E est discrète. 


VE = ms" = 


(5.26) 


La variance empirique s° (n) peut être considérée comme une 
valeur approchée de la variance théorique: 


n 
st(n)=m." (n) =+ >» (z; — z}2. 
i== 1 

De la définition de la variance (et des propriétés de l'espérance 
mathématique) on déduit les propriétés suivantes: 

a) Ve = 0 (cest une variable non aléatoire); 

b) V (CE) = c°-V£; 

c) V (a + b£) = b°-VE& (a et b sont des variables non aléatoires); 

d) VE +n) = VE + Vn si & et n sont indépendantes. 

La variance est souvent désignée par 0°. 

L'écart-type (ou écart quadratique moyen) ©: est défini comme la 
racine carrée de la variance: 6; — V VE. Il sert au même titre que 
la variance à caractériser le degré d'éparpillement de la variable 
aléatoire et s'avère parfois plus commode à l'usage en raison de son 
homogénéité (relativement aux unités de mesure) avec les diverses 
caractéristiques du centre de groupement. 

La valeur empirique de l’écart-type est donnée par la formule *) 


ñn 
1 r\2 
s(n)= V=+ à (ti — 2)". 
i= 
Le coefficient de variation v: est utilisé dans les cas où le degré 
de dispersion se décrit naturellement par une relation entre une 


caractéristique relative et l'espérance mathématique. En particulier, 


Ur = es = 100 ° 0 = 


Fe ” 100 00, 


autrement dit, le ne de variation est le rapport (en pourcen- 
tage) de l’écart-type à l'espérance Lu On voit sur la 


s°® (n) et s= es (0 .s° (n) 


(cf. $ 8.6) sppronent mieux les valeurs dde de la variance et & l’écart- 
type surtout lorsque n n’est pas grand. 


8—0273 


*) Les expressions « corrigées » =— 
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définition que v est une quantité sans dimension. La caractéristique 
empirique correspondante est définie par la formule 


De ()= 28100 %. 


9.6.4. Série variationnelle et statistiques de rang. Nous avons 
signalé plus haut que l’échantillon, c’est-à-dire l’ensemble des valeurs 
observées x,, z:, - - ., 3 de la variable aléatoire Ë, constitue l’infor- 
mation de base à partir de laquelle l’analyste tire ses conclusions sur 
les propriétés de la population générale et, en particulier, se fait 
une idée de la fonction de répartition et du polygone de fréquence 
ou de la densité de la loi de probabilité analysée (cf. $$ 5.5, 10.3 et 
10.4). Chaque terme de l'échantillon peut isolément fournir une 
importante information sur le caractère de la loi de probabilité si les 
observations sont rangées dans leur ordre de grandeur croissante. 
Ainsi, les valeurs x, (7) et x,,., (7) donnent une idée approxima- 
tive sur les marges de variation des valeurs possibles de la variable 
aléatoire £, la différence z,,, (7) — Zmin (2), Sur le degré d’éparpil- 
lement des valeurs observées ; le terme médian de la série variation- 


nelle des observations — la médiane zmea (7) — caractérise le 
centre de groupement des observations de la variable aléatoire, etc. 
Tout ceci nous suggère un traitement spécial pour les observations 


classées par ordre de grandeur croissante. 
Soient z;, Z2, - - +, 2h un échantillon composé de nr observations 


indépendantes *) d’une variable aléatoire E de fonction de répartition 


*) Expliquons ce qu’on entend par observations indépendantes à l’aide de 
la notion d'indépendance statistique des variables aléatoires. Dans cet ouvrage 
et dans d’autres, l'échantillon et les observations admettent selon le contexte 
deux interprétations différentes qui généralement ne sont pas spécifiées et, pour 
simplifier l'écposs: ne sont pas distinguées par des notations différentes. Jusque- 
là nous nous sommes contentés de la première interprétation dans le cadre de 
laquelle par z,, r+, . . .. r, on comprend les valeurs de Ë réellement observées 
dans l’expérience considérée, bref, des nombres concrets. Dorénavant nous appli- 
querons parfois aux séries initiale et ordonnée d'observations la deuxième inter- 
prétation (l’interprétation hypothétique) dans laquelle x,, re. . . .. r, sont com- 
prises comme les valeurs que nous aurions pu obteniren n répétitions de l'expérience 
(l'observation) sous le système de conditions induisant la population générale de 
la variable E. Il est évident que dans cette interprétation, la suite de symboles 
(ty, To + + «+ Zn) doit être traitée comme une variable aléatoire à n dimensions 
dont Îles composantes r; admettent toutes la même loi de probabilité marginale 
f: (x). D'après la convention adoptée, pour désigner ces données empiriques 
nous aurions dû utiliser d’autres notations, par exemple (ë(), E(?), . ... en), 
où f,ciy (x) = f; (x). Ce procédé de notations qui est plus soigneux (mais qui 


ne sera pas utilisé dans la suite) permet de définir rigoureusement la notion 

d'indépendance des observations: les observations hypothétiques EC), E(?). . .. 

.. - En) de la variable aléatoire & sont indépendantes si leur densité de proba- 

bilité conjointe {0 20) (r,. - -.. z,) peut être mise sous la forme 
+ 0 RE 


Eu 2) = fe (m)-fe (ro). cf (en). 


Las, .... 8(n)) 
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F; (x) et de densité de probabilité f: (x) continues (on se limitera 
comme toujours uniquement à l'étude de telles variables aléatoires 
continues). 

Si les x, sont rangées par ordre de grandeur croissante et les ter- 
mes de la suite strictement croissante ainsi obtenue désignés par zx, 
c'est-à-dire que 


Lan) TL Lee Th 
alors chaque zx ,; s'appelle statistique de rang et la suite 
T1) L(2)s + + +» T(n) (5.27) 


série variationnelle de la variable aléatoire E£. 

L'appareil des statistiques de rang est largement utilisé aussi 
bien en théorie et en pratique des estimations statistiques de para- 
mètres inconnus et de tests statistiques (notamment, dans la cons- 
truction d’estimations et de tests stables « distribution free », 
cf. n° 8.6.4, $ 10.3, ainsi que les $$ 11.1, 11.2 et 11.3) que dans la 
modélisation des systèmes et processus réels (cf., par exemple, [3], 
[4)). Mais quand on étudie la qualité des estimations, tests et modèles 
obtenus à l’aide des statistiques de rang, il faut avoir une idée sur 
leur comportement lors d’une répétition de l’échantillonnage, c'est-à- 
dire qu'il faut savoir décrire les lois de probabilité dans le cadre de 
l'interprétation hypothétique, interprétation dans laquelle, rappe- 
lons-le, les termes de la série variationnelle x ,;, sont traités non pas 
comme des nombres concrets mais comme des variables aléatoires. 
Et bien que les termes de la série variationnelle (5.27) contrairement à 
ceux de l'échantillon initial ne soient plus indépendants (car ordonnés) 
et, donc, leurs répartitions marginales ne soient plus identiques et 
décrites notamment par la même densité de probabilité f: (x), ils peu- 
vent néanmoins être décrits facilement en termes de densité et de 
fonction de répartition F+ (x). 

On établit sans peine que la densité de répartition f, (x) de la 
statistique de rang z (n de la série variationnelle (5.27) a pour expres- 
sion 

fan (@=n- Ci Pi (2) (1—F:(2)" if (0) (5.28) 


(pour prouver cette formule, on se sert de la loi de probabilité poly- 
nomiale, cf. $ 6.1). 

Le comportement des termes de la série variationnelle est décrit 
de façon exhaustive par la densité de probabilité conjointe 
Î (Et tee RE) (x, y, ..., t). Le calcul d’une telle densité 
(en fonction de f: (x) et de F: (x)) n'est pas compliqué, mais est assez 
laborieux. Citons quelques exemples de répartitions de statistiques 
de rang et de fonctions de statistiques de rang les plus fréquemment 
utilisées en pratique. 


S* 
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La répartition conjointe des statistiques de rang xn et x ça) Ü << Q) 
se définit par la densité 


façpyrçan = K(G, q, n)-Fi-t(2)[F; (y) — 
— F; (2) — Fa (y) fs (2) fe (y), (5.29) 
où le coefficient Æ (j, q, n) est donné par la formule 


; n | , 

Nr ETC EE ICT Se 

En particulier, pour j = 1 et q = n, c’est-à-dire pour les termes 

extrêmes de la série variationnelle, on obtient la densité de proba- 
bilité 

fan on @ Y)=n(n—1)[F: (y) — Fi: (2) fe (x) fe (y). (5.29) 


Une importante fonction des statistiques de rang, présente dans 
de nombreuses applications, est l'étendue À, = x {ny — za) qui est 
utilisée au même titre que la dispersion, l’écart-type et le coefficient 
de variation (cf. n° 5.6.3) pour caractériser le degré d’éparpillement 
de la variable aléatoire étudiée. La formule (5.29”) permet d’obtenir 
Ja fonction de répartition de l'étendue 


FaG@=n ((Fi(e+3-F ("fo dr, (5.30) 


l'intégration étant étendue au domaine des valeurs possibles de la 
variable aléatoire E. 

Voyons maintenant un exemple d'application de l'appareil des 
statistiques de rang à la modélisation des phénomènes économiques. 
Dans le travail [4] cet appareil est utilisé pour la construction de 
modèles prévisionnels de répartition des familles et de leurs membres 
en fonction du revenu par personne, et en particulier pour l’étude de 
la structure et du caractère des relations entre les répartitions: en 
fonction du salaire de fous les membres actifs (f£ (x)), en fonction 
uniquement des premiers, des seconds, etc. membres actifs dans les 


familles de n membres actifs x (x), 1 =1,2,...,n; z (nest le 


j-ième salaire par son montant dans la famille); des familles en 
fonction du revenu moyen par personne n (fn (x)). Les modèles décrits 
dans [4] ont permis en particulier de déterminer avec beaucoup d’exac- 


titude les répartitions Îze p (x) et fn (x) à l’aide de la répartition 
connue f£ (r) de tous les membres actifs en fonction du montant de 
leur salaire et aussi de calculer les diverses caractéristiques de la 
relation statistique entre, d'une part, le salaire du j-ième membre 
actif dans la famille x,_;:,, et le revenu moyen par personne n, 
et, d'autre part. le salaire d’un membre actif & pris au hasard, sans 
procéder à des sondages statistiques spéciaux dans les populations géné- 
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rales-Zin_j+1y (des j-ièmes membres actifs) et n (familles). Ainsi, dans 
le cas de populations de familles ayant deux membres actifs, les 
densités de la répartition du salaire uniquement des premiers et 
uniquement des seconds membres actifs peuvent être déterminées 
en fonction de la loi de probabilité du salaire de tous les membres 
actifs à l’aide des formules: 


fx) (&)=2F: (à) fi (x); 
fx = 211 — F3 (2)] f: (@). 


5.6.5. Quantiles et points de pourcentage d’une répartition. Les 
méthodes de statistique mathématique, notamment les tests statis- 
tiques (cf. $ 9.1) et les estimations par intervalles des paramètres 
inconnus (cf. chap. 8) utilisent largement les notions de quantile 
F0 d'ordre g et les points de pourcentage w, (F) de la répartition 

x). 

On appelle quantile d'ordre q (ou qg-quantile) d’une variable aléa- 
toire continue & de fonction de répartition continue F (x) une 
valeur possible u, (F) de £ telle que la probabilité de l’événement 
{& 'u, (F)} est égale à q, soit 


F (us) = P{E<u,} = 9. (5.31) 

Il est évident que u, croît avec q (0  q << 1). Le quantile d'ordre 
0,5 (la médiane) caractérise le centre de groupement. 

Nous avons vu que la fonction de répartition F: (x) de toute 
variable aléatoire discrète £ croît avec x par sauts, donc on peut 
trouver des q pour lesquels il n’existe pas de valeurs possibles uw, 
satisfaisant exactement l’équation (5.31). Donc, dans le cas discret, 
un quantile d'ordre g se définit comme un nombre u, (F) compris 
entre deux valeurs possibles voisines 2%, et zim+1 et tel que 
F (tin) <a, mais F (2 (9 +1) > q- 

Les analogues empiriques des quantiles théoriques seront de toute 
évidence les termes de la série variationnelle (les statistiques de rang). 
De leurs définitions il s'ensuit en particulier que la statistique de 
rang Z(;) est en même temps le quantile empirique d'ordre (j — 1})/n, 
puisque la fréquence relative (l’analogue empirique de la probabi- 
lité!) des observations x, est justement égale à (j — 1}/n. 

Les points de pourcentage sont souvent utilisés à la place des 
quantiles auxquels ils sont étroitement liés. On appelle point de 
pourcentage 100 Q (0  Q < 100) d'une variable aléatoire £ sa valeur 
possible w, pour laquelle la probabilité de l'événement {E > wo} 
est égale à Q/100, c'est-à-dire que 


1—F (= Pre) = 6. 


. Le point de pourcentage se définit mutatis mutandis pour le cas 
iscret. 
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De la définition du quantile et du point de pourcentage on déduit 
la relation élémentaire : 


Ug — Uioo(i-9)- (5.32) 


Des tables spéciales de quantiles et de points de pourcentage ont 
été composées pour les lois de probabilité les plus fréquemment 
utilisées en statistique (cf. chap. 6). Il est évident qu'il suffit de 
connaître une de ces tables, car si l’on demande, par exemple, de 
trouver le quantile d'ordre 0,9 de la loi normale, il suffit, en vertu 
de (5.32), de déterminer le point de pourcentage 10 de cette même 
oi. 

La figure 5.10 illustre de façon suggestive la signification géo- 


Be 


métrique des notions introduites. Ici q— | f: (x) dr; 


ESS 
100 
= | Go dr y = fi). 

Wa 
Les quantiles qui sont essentiellement des instruments statisti- 
ques auxiliaires peuvent parfois jouer le rôle de principales caracté- 
ristiques ou de paramètres 
de la loi de probabilité étu- 
diée. Ainsi, les coefficients 
quantiles (d'ordre q) de dif- 
Jérenciation K, (q) qui sont 
définis par la relation 


Ç 


N — 
XX Ka(g)= x 


5 2 JO D 1 2 S à (0 < g9<0,25) 


Fig. 5.10. Interprétation géométrique du (les plus usités sont les co- 


quantile u, et du point &Q de pourcentage D qe Res 
1000 : cas %e la loi normale réduite, q = efficients déciles de différen- 
= 0,25 (resp. uo.es = —0,675) et 9 —5% ciation qui correspondent 


(resp. &50, = 1,65) à q — 0,1) sont largement 

| utilisés pour caractériser le 

degré de dispersion des salaires et des revenus. Les quantiles et les 

points de pourcentage servent également à représenter les bornes 

pratiques de l'intervalle de variation de la variable étudiée: ainsi, 

par exemple, les quantiles d’ordre 0,005 et 0,995 définissent parfois 

respectivement les niveaux minimal et maximal du salaire dans 
l'échelle respective des indices. 

5.6.6. Dissymétrie et aplatissement. On voit sur la formule (5.21), 
qui définit les moments centrés, que si la densité f: (x) (ou la suite 
de probabilités P {E — x%}) est symétrique par rapport à la valeu, 
moyenne m, — EE (c'est-à-dire que f (m, — x) = f (m, + x)), alors 
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tous les moments centrés impairs m2»+1 (s’ils existent) sont nuls. 
Donc, tout moment centré impair non nul peut être traité comme 
la caractéristique de la dissymétrie de la répartition correspondante. 
La plus élémentaire de ces caractéristiques, m°;”, a été prise pour 
élément de base dans le calcul du coefficient de dissymétrie B; 


10) RES 3 
p= = En (5.33) 
(ms) 1? [E (5—m)T"? 

qui caractérise le degré d’aplatissement de la répartition. La nor- 
malisation moyennant la division de m° par (m;°’)°/° a été intro- 
duite de manière à ce que cette caractéristique ne dépende pas du 
choix des unités de mesure de la variable aléatoire étudiée: la for- 
mule (5.33) définit une caractéristique sans dimension du degré 
d'aplatissement de la répartition, c’est-à-dire invariante par rapport 
aux unités de mesure de E. 

Donc, toutes les répartitions symétriques auront un coefficient 
de dissymétrie nul (cf. fig. 5.5, 5.6, 5.9, 5.10), tandis que les ré- 
partitions dont la courbe de densité de probabilité s’étire vers la 
droite (resp. la gauche), un coefficient strictement positif (cf. 
fig. 5.8) (resp. strictement négatif). Le coefficient de dissymétrie 


empirique B, (2) se calcule en fonction des moments centrés empiri- 
ques d'ordre deux et trois à l’aide de la formule 


à ms® (n) n 


Bi (re a  — (5.33) 


(mE0 (n))°°2 


Le comportement de la densité (du polygone) de la répartition 
au voisinage de sa valeur modale définit la forme géométrique de la 
courbe correspondante au voisinage de son maximum. Le coeffi- 
cient d’aplatissement f, est une caractéristique utile dans la réso- 
lution de nombreux problèmes, par exemple, dans la détermination 
de la forme générale de la répartition étudiée ou dans son approxima- 
tion par certains développements spéciaux (voir, par exemple, la 
représentation des répartitions par des séries de Gram-Charlier et 
d'Edgeworth [40], p. 246-256).1 Cette caractéristique se définit à 
l'aide de la relation: 

_ ELLES __E(—-mik 
Bo = TE — 3 = Em) (5.34) 

Nous verrons plus bas que la répartition normale de Gauss pour 
laquelle B,; = 0 est une sorte de référence pour mesurer le degré 
d’ aplatissement d’une courbe. En principe, les répartitions dont les 
courbes de densité (les polygones) sont plus pointues ont un coeffi- 
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cient d’aplatissement strictement positif, les moins pointues, un 
coefficient d’aplatissement strictement négatif (fig. 5.11) *). 
Le coefficient d'aplatissement empirique se calcule à l’aide de la 
formule 


f(x) 


AT) LL Eee 


(m2° (n))° 


1 = 
nn > (zi— 2) 
ee 


ni n 
pr > 2} | 
i=1 
(5.34) 
_ 5.6.7. Principales caractéristi- 
Fig. 5.11. Exemples de densité pour ques des répartitions multidimen- 
un coefficient d'aplatissement >0, : / ; 
<0 et =0 sionnelles (covariance, corréla- 
tion, variance généralisée, etc.). 
Si en dimension un, et dans une certaine mesure, en dimension deux, 
l'analyste a encore la possibilité d'utiliser des lois de probabilité 
modèles convenables (cf. chap. 6), en dimension p > 2, il doit se 
contenter de la seule information que lui fournissent les deux pre- 
miers moments **): le vecteur des moyennes 


m," : EE) 
mi” EE 
M, = = (5.35) 
m{P) EP) 
et la matrice des covariances 
O11042 ee Op 
Os1022 e. +. Os 
DE a (5.36) 


Op10 p2 CE Opp 
*) En vérité on peut exhiber des exemples violant cette loi (cf. [76)J). 
**) Diverses tentatives d'introduction et d'utilisation pirate des analo- 
ques multidimensionnels des coefficients de dissymétrie et d’aplatissement ont 
té entreprises. Ainsi Mardia (cf. Mardia K.V. Measures of multivariate skewness 
and kurtosis with application. — Biometrika, vol. 57, 1970) utilise ces analogues 
pour étudier l'influence des écarts de la répartition analysée par rapport à la loi 
normale sur les propriétés de la statistique T°? de Hotelling (cf.$ 11.2). Yu. Tiou- 
rine a proposé d'autres variantes d’analogues multidimensionnels des coeffi- 
cients de dissymétrie et d'aplatissement pour le test statistique de la normalité 
multidimensionnelle de la population ques analysée (cf. Théorie des proba- 
bilités et ses applications. 1973, t. XVIII, n° 3). Mais les moments d'ordre >2 
ne se sont pas avérés être un instrument d'étude efficace et encore moins nécessai- 
re, aussi sont-ils peu sollicités pour le traitement statistique des données multi- 
dimensionnelles, 
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où les moyennes m{i) des composantes El) sont définies à l’aide de la 
formule (5.25) au moyen des densités marginales (resp. des polygones 
de fréquence) des variables aléatoires EG, et les covariances 6; = 
= E {(E0 — m{i) (E%) — m@)} se calculent au moyen des den- 
sités marginales (resp. des polygones de fréquence) du couple de 
variables aléatoires (0), EUR), 

Les analogues empiriques du vecteur :/, des moyennes et de la- 
matrice des covariances Ÿ, c’est-à-dire les caractéristiques calculées 


directement avec les données d'échantillonnage X,, X,, ..., A, 
sont respectivement le vecteur des moyennes empiriques 
HU (n) 
e : zx (n) 
X(n)=M,{(n) = (5.35'} 
z(P) (n) 


et la matrice des covariances empiriques 


Sun) Six) ... Sin (n) 
S(r)= = Sa (7) So (n) ... S2p (7) | (5.36) 


Sp1 (7) Spa () . .. Spp (1) 
où X; = (x, ..., 2 P)) est une observation multidimensionnelle, 


les composantes des moyennes empiriques 2%) (n) se calculent à 
l’aide de la formule (5.35’), et les éléments s;, (7) de ‘a matrice- 
des covariances S (n), à l’aide de la formule 


(2 707 (2° — 70). 


is i 


Comme en dimension un, le vecteur des moyennes est la prin- 
cipale caractéristique du centre de groupement des observations de- 
la variable aléatoire multidimensionnelle E (dans l'espace à p dimen- 
sions de ses valeurs possibles). 

La matrice des covariances Z caractérise les propriétés suivantes- 
de la variable aléatoire multidimensionnelle E. 

1. Le degré de dispersion aléatoire par rapport à chaque compo- 
sante et par rapport à la variable Ë tout entière. Il est immédiat 
de voir que les éléments diagonaux 0;, de la matrice Z définissent 
les variances marginales des composantes El), c'est-à-dire le degre- 
de dispersion aléatoire des valeurs de la variable aléatoire à une- 
dimension Et}. Ainsi 


Ou = E (ES — mO} — VE. 
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L'analogue multidimensionnel de la variance est la valeur du dé- 
terminant de la matrice des covariances. On l’appelle variance 
généralisée de la variable aléatoire multidimensionnelle E: 


VLE = det (Z). (5.37) 


Une autre caractéristique du degré de dispersion des valeurs de 
la variable aléatoire multidimensionnelle £, souvent utilisée dans 
les calculs, est la trace de la matrice des covariances XŸ, c’est-à-dire 
la somme de ses éléments diagonaux 


Tr (2) = Où + O2 + +. + Oppe (5.38) 

De la semi-définition positive de la matrice Z (cf. n° 5.6.1) et de la 
signification des éléments diagonaux 0;;, il s'ensuit que les quantités 
définies par les formules (5.37) et (5.38) seront toujours positives. 
Les analogues empiriques de la variance généralisée (5.37) et de 


la trace de la matrice Z (5.38) sont respectivement la variance géné- 
ralisée empirique 


VE = det S (n) (5.37') 
et la trace de la matrice des covariances empirique 


Tr (S (n)) = su (0) + S2e (n) +... + Sp) (n). (5.38) 
Eclaircissons la signification géométrique de la variance généralisée 
(cf., par exemple, [16]). Au sujet de la variance généralisée théorique, 
on peut dire que si, par exemple, la variable aléatoire multidimen- 
Sionnelle étudiée suit une loi normale (cf. chap. 6) et si P, est une 
probabilité donnée, alors le volume du domaine (entourant le centre 
-de groupement A7,), dans lequel les valeurs de Ë tombent avec la 
probabilité P,, est proportionnel à V V.E (ce volume est proportion- 
nel aussi à un facteur dépendant de la dimension p et proportionnel, 
‘en outre, à un nombre défini en fonction de la probabilité donnée P,). 
On peut donner également une interprétation géométrique à la 
variance généralisée empirique dans l'espace à p dimensions des 
observations X,. ..., À,. À cet effet, considérons dans cet espace 
tous les parallélépipèdes construits de la manière suivante. Pour 
supports des arêtes de chaque parallélépipède prenons p à p les 
vecteurs d'origines p points parmi X,, ..., X, et d'extrémité le 
point X Il s'avère que la somme des carrés des volumes de tous ces 
parallélépipèdes sera proportionnelle à la valeur de la variance géné- 
ralisée empirique V.ë (le coefficient de proportionnalité étant égal 
à 1/(72 — 1})”). 

2. Le caractère et la structure des relations statistiques liant les 
composantes de la variable multidimensionnelle analysée peuvent 
également être décrits en termes de matrice des covariances. Mais, 
dans ce cas. il est plus commode de passer à une matrice des covarian- 
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ces normalisée d'une certaine manière: la matrice des corrélations 


TUE Tip 


R= "272 ren (5.39) 


Thil p2 ee T pp. 


où les éléments r;, se déduisent à partir des éléments ©;, à l’aide 

de la normalisation 

O jk _ 
T'jh —= = 12° (5.40) 
(O;j0nn) ” 
Les caractéristiques r;, s'appellent coefficients de corrélation du 
couple de variables aléatoires EU) et Et*). Elles mesurent le degré 
de liaison statistique linéaire entre ces variables et jouissent des pro- 
priétés suivantes : 

a) —1 <r;yx L'1; ceci résulte immédiatement des inégalités 
E ( EU) —mf) 50) — mÊe) 


g;; Ok 


) >0; 


b) la corrélation la plus étroite est réalisée lorsque le coefficient 
de corrélation est égal à +1 ou —1. Dans le premier cas, on a affaire 
à la corrélation d’une variable aléatoire avec elle-même (il est alors 
évident que r;; = 1); dans le second cas, à la corrélation de deux 
variables Et) et E(*) Jinéairement liés, c'est-à-dire que E% — b, + 
+ b,E%), où b, et b, sont des constantes (cette liaison est dite positive 
si b, > 0, négative si b, < 0); | 

c) si les composantes aléatoires EU) et Et“) sont statistiquement 
indépendantes, alors r;; = O0 (ceci résulte directement du fait que 
pour des variables indépendantes EU) et Et"), on a E (EU)-E0") — 
— (EEU)) (EE). La réciproque (c'est-à-dire que r;; — 0 entraîne 
l'indépendance de EU? et Et*)) n'est valable que pour certains cas 
particuliers (par exemple, pour des variables normales EU) et Et“). 
Dans le cas général elle est mise en défaut. 


Conclusions 


1. Les variables aléatoires soumises à un traitement statistique 
dans le cadre d'expériences aléatoires (ou d'observations) sont de 
trois types: quantitatives, ordinales et nominales. 

2. Les valeurs possibles *) de la variable aléatoire dépendent de 
la nature et de la composition de l’espace fondamental Q: à toute 


*) Outre la forme scalaire. ces « valeurs possibles » peuvent être repré- 
sentées sous les formes vectorielle et matricielle et même être définies sur un 
espace de nature très générale (selon le contenu et les objectifs de l’expérience 
aléatoire effectuée). 
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issue élémentaire w est associée une « valeur possible » x (w) de la 
variable aléatoire £, donc cette dernière peut ètre définie comme une 
fonction £ = £ (w) définie sur Q. 

8. Les valeurs observées X,, X2, . .., X, de la variable aléatoire 
sont des valeurs numériques, vectorielles ou matricielles de £ réa- 
lisées dans nr expériences (ou x observations). Le nombre total r 
des valeurs observées peut être supérieur, égal ou inférieur au nombre 
total des valeurs théoriquement possibles. 

4. La loi de probabilité de la variable aléatoire étudiée permet 
d’associer à tout domaine mesurable AX des valeurs possibles la 
probabilité p (AX) de l’événement « la valeur de Ë réalisée au cours 
d’une expérience aléatoire (observation) appartient à ce domaine », 


c'est-à-dire que 
p (AX) = P { E AX)}. 


5. Pour décrire la loi de probabilité d’une variable aléatoire 
multidimensionnelle & — (£%), ..., E()) on peut comme en dimen- 
sion un se servir de la fonction de répartition F2: {xt}, ..., x(°)) — 
= P {E0) 20), ..., E() x} et de la densité de probabilité 
fe (0, ..., x) = de (xD, .... a))/9xtl, . .., x). Mais 
contrairement à la Don un, seule la densité de probabilité déjinit 
de façon exhaustive la loi de probabilité multidimensionnelle. 

6. La loi et d’une variable aléatoire multidimensionnelle 
E = (EU, EM), ..., E8)) permet de déduire la loi marginale de 
tout sous-vecteur . = (Et, EG), eu) 1< Cp. 1 
<k< p, ainsi que la Loi conditionnelle de tout sous-vecteur E 


sachant que tout ou partie des autres composantes de £ sont fixées 
à des niveaux donnés (cf. (5.15) et (5.16)). 


7. Si les composantes EU, EC), ..., £() de la variable aléatoire 
ë — (EU, ..., E)) sont statistiquement indépendantes, la loi de 
probabilité conjointe fe (4), ..., x) peut être décrite par p 


lois marginales à une dimension, puisque, dans ce cas, on a par défi- 
nition 


Îe (x), 2), 7 x{P)) 7 f:0) (29) - f.ç0) (x0°)) es JauP) (xt). 


8. La population générale est synonyme d’« espace probabilisé », 
de « variable aléatoire », de « loi de probabilité » et se définit comme 
l’ensemble de toutes les observations possibles et imaginables sus- 
ceptibles d’être effectuées sous le système de conditions donné. 

9. L’échantillon est une partie de la population générale traitée 
par les méthodes statistiques pour étudier les propriétés de la popu- 
lation générale. Le problème de la représentativité de l'échantillon 
implique de l’analyste subtilité et maîtrise des diverses formes 
d'organisation des sondages pour compenser le manque de temps et 
de moyens pour obtenir cet échantillon. 
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10. La connaissance de quelques caractéristiques numériques, 
notamment, la moyenne EË, la variance VE, les coefficients de dis- 
symétrie et d'aplatissement (B, et B.), et dans le cas multidimension- 
nel, encore les éléments 6,, de la matrice des covariances X, suffit 
pour étudier le comportement de la variable aléatoire E. 

11. Le calcul des valeurs théoriques des caractéristiques men- 
tionnées implique la connaissance de la densité de probabilité (ou 
du polygone de fréquence) de la loi analysée. Mais en pratique on les 
remplace souvent par leurs analogues empiriques qui sont déterminés 
uniquement à l’aide des données d’échantillonnage X,, X,, . .., Xh. 
Ce changement approximatif est légitimé par le fait que l'échantillon 
est interprété comme un modèle réduit de la population générale 
étudiée dans lequel les valeurs observées (c’est-à-dire réalisées) 
Xy, Xo, : -., À, sont considérées comme possibles, et les proba- 
bilités de leur réalisation, prises égales aux fréquences relatives de 
leur apparition, c'est-à-dire à 1/n. 

12. Une méthode payante d’analyse des propriétés d’une variable 
aléatoire multidimensionnelle E consiste à ranger ses valeurs obser- 
VéeS Zy, Los + + + Zn Par ordre de grandeur croissante. Les obser- 
vations ordonnées forment une série {x(;)}i=1, ....n appelée série 
variationnelle et ses termes, statistiques de rang. Elles sont largement 
utilisées dans la construction des estimations non paramétriques et 
des tests non paramétriques (cf. $$ 8.6, 10.4, 11.2, 11.3). 

13. L'échantillon (ou la série variationnelle) est utilisé selon 
le contexte dans l’une des deux acceptions suivantes. Dans la première 
(l'acception pratique), par X,, X2, .-.., X, on comprend les valeurs 
de £ réellement observées au cours de l'expérience, c’est-à-dire des 
nombres ou des vecteurs concrets. Dans la deuxième (l’acception 
hypothétique) X,, X:, ..., X, représentent seulement les notations 
des x valeurs (nombres ou vecteurs) que nous aurions dû obtenir 
en effectuant nr fois l’expérience (ou l'observation) dans le système 
de conditions induisant la population générale. Dans le dernier cas, 
les X; et toute fonction de X}, n’interviennent plus comme des nom- 
bres ou des vecteurs concrets, mais comme des variables aléatoires. 


CHAPITRE 6 


LES LOIS DE PROBABILITÉ MODÈLES 
LES PLUS COURAMMENT UTILISÉES 
DANS LES RECHERCHES STATISTIQUES 


Le poids de telle ou telle loi de probabilité dans les recherches 
statistiques doit être jugé à travers les deux fonctions qu'elle est 
susceptible de remplir. La première consiste à décrire de façon adé- 
quate le mécanisme du processus réel étudié induisant la population 
générale soumise au traitement statistique. Dans ce cas, la loi modèle 
retenue pour des raisons diverses (ou déduite théoriquement) décrit 
la répartition des probabilités d'une variable aléatoire admettant une 
signification physique bien claire (salaire d’un travailleur, revenu 
d’une famille, nombre de pannes d'une chaîne par unité de temps, 
nombre de pièces défectueuses dans un lot de taille donnée, etc.). 
Les diverses méthodes de construction, d'analyse et de justification 
de ces lois relèvent de la modélisation (cf. chap. 3). 

L'autre fonction de ces lois modèles est une fonction d'instrument 
technique auxiliaire dans la réalisation des méthodes de traitement 
statistique des données. Ces lois permettent de décrire les répartitions 
des probabilités de certaines fonctions auxiliaires des variables 
aléatoires étudiées, utilisées pour la construction de toute sorte 
d’estimations et de tests statistiques (sur les méthodes de construc- 
tion des estimations et des tests voir $$ 8.1 à 8.6 et 9.1 à 9.6). Si- 
gnalons en tout premier lieu la répartition du #*, la répartition de 
Student (ou répartition t) et la répartition F. 


6.1. Lois de probabilité servant à décrire les mécanismes 
de processus ou de systèmes réels 


6.1.1. Lois décrivant une suite d’épreuves de Bernoulli: la loi 
binomiale et la loi binomiale négative. Une importante classe de 
variables aléatoires est induite par une suite d'expériences aléatoires 
du type suivant: chaque expérience (observation) aléatoire fait 
apparaître (avec une probabilité p) ou non (respectivement avec une 
probabilité q — 1 — p) l'événement À qui nous intéresse; la pro- 
babilité p de l'événement À reste la même si cette expérience est répétée m 
fois, quant aux observations qui constituent cette suite, elles sont mu- 
tuellement indépendantes. Une telle suite d'expériences est appelée 
suite d'épreuves de Bernoulli. On peut décrire cette suite en termes de 
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variables aléatoires en associant à l’épreuve i la variable aléatoire 


1 si l’événement À se produit ; 


E, = . 
Fe 0 sinon. 


(G.1) 


Dans ces conditions, dire qu’une suite E,, E,, . .., &, est de Ber- 
noulli revient à dire que P{E, = 1} = P {ke = 1} =... 
... = P {E, = 1} = p, les variables aléatoires E,, &., . .., Em 
étant statistiquement indépendantes (la définition de l'indépendance 
statistique est donnée au n° 5.5.3). 

Sous certaines conditions (qui sont en principe approximative- 
ment réalisées dans la pratique), la suite d'épreuves de Bernoulli 
se prête bien à la description d'expériences aléatoires telles que le 
lancement d’une pièce de monnaie ou d’un dé, le contrôle (d’après 
le principe binaire) de pièces produites en série, la demande d’un ser- 
vice (avec les issues « libre-occupé »), la réalisation d’une täche 
(avec les issues « réalisée-non réalisée »), le tir à la cible (avec les 
issues « touché-raté »), etc. 

Une épreuve de Bernoulli peut être interprétée comme le prélé- 
vement d’un objet dans une population générale infinie dans la- 
quelle p objets possèdent la propriété qui nous intéresse. Dans ce 
cas, l’événement À consiste en ce que l’objet prélevé possède la 
propriété indiquée. 

La loi binomiale décrit la répartition de la variable aléatoire 
Vp(m) = Es + Es +...+En cest-à-dire du nombre d'’appari- 
tions d’un événement dans une suite de m épreuves indépendantes, 
la probabilité d'apparition de cet événement dans une épreuve étant 
égale à p. 

De la définition de la variable aléatoire binomiale, il s'ensuit 
que ses valeurs possibles sont tous les entiers positifs de O0 à m. 
Pour calculer les probabilités P {v, (m) = x} (x = 0, 1, 2, ..., m), 
étudions attentivement l’espace fondamental engendré par la suite 
d'épreuves de Bernoulli. Il est évident qu’à tout événement élé- 
mentaire w est associée une suite de 0 et de 1 de longueur m, soit 


Ôi (wo), de (w), ee) 0m (w). (6.2) 


Partageons ces suites en classes en rapportant à la classe d'indice x 
toutes les suites de type (6.2) contenant un même nombre x d'unités: 


z—=0: (0, 0, ..., 0, 0) = (0) 
x=1: (1, 0, ..., 0, 0) = w, (1) 
(0, 1, ..., 0, 0) = & (1) 
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R 
(A, 1,1,...,1, 0...,0, 0) =, (%) 
(0, 1,...,0,..., 0, 0) =, (&) 


H 
Î 
Ered 


k=m: (1 À 4, Lau 4 0)=0(m): 


Etant donné que le nombre V (x) d'événements élémentaires de 
la classe d'indice x est égal à C7, (le nombre de combinaisons de z 
unités m à m) et que la probabilité de réalisation de toute issue 
élémentaire de la classe d’indice x est égale visiblement à p* (1 — 
— p}"+, on obtient 


PVR (M) =2}= P {oi (x) +o2(z)+.. Ho (= 


a 
= pepe = Cap (pe. (6.3) 


Ceci est l'expression analytique de la loi binomiale *). Ses 
principales caractéristiques numériques (qui ici se calculent plus 
facilement non pas à l’aide des formules directes (5.21), mais en uti- 
lisant la relation v, (m) = ë1 + - . . + Em, l'indépendance mutuelle 
des £; et la simplicité des moments) sont: 

la moyenne: Ev, (m) = mp; 

le mode: p (m + 1) — 1 < Zmog & P (M + 1); 

la variance: Vv, (mn) = mp (1 — p); 


le coefficient de dissymétrie : B, — = , 
V mp(1—p) 
e , C : 1 —6p (1 es P) 
le coefficient d'aplatissement : f.= dot 


La loi binomiale est largement utilisée pour le contrôle de qualité 
des produits, pour la description du fonctionnement des systèmes 
de files d'attente. en théorie du tir et dans d'autres domaines des 
activités pratiques. 

La loi binomiale négative décrit la répartition d’une variable 
aléatoire v; (&) définie par une suite d'épreuves de Bernoulli (cf. 


*) Cette loi s'appelle binomiale, car le second membre de (6.3) est le z-ième 
terme du développement du binôme (p -— (1 — p)}". Ce mème fait permet de 
vérifier l’axiome de normalisation des probabilités, c’est-à-dire la véracité de 


mn 
l'identité + Cp (1—pirx= 1, 


x=0 
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(6.1)) de la manière suivante: 


Vp(h)- 1 Vh(h) 
DO E=k—1, DZ tk. 
i={ {msi 


En d'autres termes, v;, (k) est le nombre d'épreuves nécessaire pour 
faire apparaître dans une suite de Bernoulli kÆ fois un événement 
(dont la probabilité d'apparition au cours d’une épreuve est égale 
à p). Le calcul de l’expression analytique de la loi de probabilité 
de la variable aléatoire v; (k) est facile. Figeons une valeur possible 
quelconque x de v; (k). Du fait que l’événement qui nous intéresse 
s'est réalisé Æ fois en v;, (4) = x épreuves, il s'ensuit qu'il s’est 
réalisé À — 1 fois en x — {1 épreuves. Le théorème de multiplication 
des probabilités nous donne alors: 


P {5 (k) = 2} = [CE iptt (1 — p)-9-6-0]. p= 
= Chip (A pt, z=k, k+1,... (6.4) 


Cette loi tire son nom de ce que les seconds membres de (6.4) 
sont les termes du binôme d’exposants négatifs: p* (1 — (1 — p))*. 
Les principales caractéristiques numériques de cette loi sont: 
la moyenne : Ev; (k) — _ 


9 


k(1— p) 


. 
a ? 


la variance: Vv,(k) = 


P 
le coefficient de dissymétrie : B _— 
en syume : e—— 
: UyVrü=n 
le coefficient d'aplatissement : B: = CERCLE, 


La loi binomiale négative est appliquée à la statistique des acci- 
dents et des maladies, dans les problèmes d'analyse des quantités 
d'individus d’une espèce donnée contenus dans des échantillons 
biologiques, dans les problèmes de réservation optimale d'éléments, 
en théorie du tir. 


6.1.2. Loi hypergéométrique. Dans l’une des interprétations 
de la variable aléatoire binomiale v, (m) nous avons considéré 
une population générale infinie dont p objets possédaient le caractère 
qui nous intéresse. Alors v, (m) représente le nombre d'objets possé- 
dant ce caractère parmi m objets tirés au hasard dans la population 
générale. La variable aléatoire hypergéométrique vuyn (m) peut être 
traitée comme une modification de la variable aléatoire binomiale 
v, (m) rapportée à une population générale finie constituée de W 
objets dont Af possèdent le caractère étudié. Autrement dit, vynw (m) 
est le nombre d'objets jouissant de ce caractère parmi m objets tirés 
(sans remise) au hasard dans une population de W objets dont M 
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ont ce caractère. Il est évident que les valeurs possibles de la variable 
aléatoire v,, + (nm) seront tous les entiers positifs de max {0, m — 
— (N — M)} à min {m, M}. Pour établir la forme analytique de la 
loi de probabilité, calculons la probabilité de l’événement 
{vy x (m) = x} comme le rapport du nombre de tous les échantillons 
de taille m conduisant à la réalisation de cet événement (le nombre 
de cas favorables) au nombre de façons de choisir m objets parmi 
(le nombre de toutes les issues possibles). I] est évident qu'à toute 
collection de x objets possédant le caractère étudié sont associées 
C$=M façons de choisir les m — x objets restants parmi les objets 
ne possédant pas ce caractère. Comme le nombre de collections de x 
objets jouissant de ce caractère est égal à Ch, le nombre total d'is- 
sues favorables (de l'événement {v,, x (m) — x}) sera égal à Cy X 
X C$=ñ. Vu que le nombre de toutes les issues possibles, c'est-à-dire 
de toutes les façons dont on peut extraire m objets parmi A, est 
égal à C\, il vient 


CiCN=at 
P {vu x (M) = 2} Dm (6.5) 
N 
Cette loi est souvent utilisée pour le contrôle de produits indus- 
triels, ainsi que dans les problèmes d'organisation de sondages. 
Ses principales caractéristiques sont : 


V 
la moyenne: Ev;;, N(m)=m ss : 
| M M m 
la variance: Vvu,x(m)=m-— (1 + (1—-—) 
le coefficient de dissymétrie: B, = 
M 
(1-2) (N—2m) VN=I 
M [, M (N—2)VN=m ! 
my (1-7) 


le coefficient d'aplatissement : B,= 
. M M 
61 (N)— 62 (N)-6 5 (1) 
— nf) (N)+c (N), 
m— |1 ] 


__W=HN(N+1) 
= TN Nm) : 


_ (N—1) N3 : 
ÉASURRT ET EE ETS 
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_ (N —1).V: . ; . 
= 3 [po — 1]: 
18(V—1) 6(W—1) 
ns 
(NY —2) (A — à)  (N— 2)(N —3) m + (1-+) 
3(N—1) Vm 


T(N—2)(N=3)(N—m)" 


Lorsque :V —+ oo, le second membre de (6.5) tend en toute logique 
vers l'expression (6.3) de la loi binomiale. La moyenne, la variance, 
les coefficients de dissymétrie et d’aplatissement de la loi hypergéo- 
métrique tendent respectivement vers les mêmes caractéristiques 
numériques de la loi binomiale (ceci s'établit sans peine par un pas- 
sage à la limite). 


6.1.3. Loi de Poisson. La loi de Poisson (qui a été publiée par ce 
savant en 1837) décrit le nombre d’apparitions pendant une unité 
de temps d'un événement dont la réalisation ne dépend pas du nom- 
bre de réalisations passées et n'influe pas sur les futures, les épreuves 
se déroulant dans des conditions stationnaires. Cette loi peut égale- 
ment être décrite comme la limite de la loi binomiale lorsque la pro- 
babilité p d'apparitions de l'événement étudié dans une épreuve 
est très petite et le nombre m d'épreuves effectuées en une unité de 
temps, assez élevé, plus exactement lorsque le produit mp — À 
(4 = const >> 0) pour p — 0 et m—+ æ. La loi de Poisson est pour 
cette raison appelée aussi loi des événements rares. Désignons par 
Vo (co) ou simplement v, une variable aléatoire poissonnienne (cette 
notation exprime que vo (oo) est déduite de la variable aléatoire 
binomiale v,, (m) lorsque p — 0 et m— ) et calculons sa loi de 
probabilité 


P{vo=z}= Cou P{v,(m)=zx}=limCnp* (1— p}"*= 
AT 
m(m—1) ...(m—z+1) HE. (4-1) 


= ]im 
z | mx 


= lim [ (1-2) (1) (1-2). . 
CENTS 
à Bin (1) (1-2) (1-7 


Ax 
= e-h(z=—0, 1, 2...). (6.6) 


On voit donc que la loi de Poisson dépend de l'unique para- 
mètre À qui figure le nombre moyen de réalisations de l'événement 
étudié pendant une unité de temps. 


9e 
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Les formules (5.20) et (5.21) nous permettent de calculer directe- 
ment les caractéristiques numériques de la loi de Poisson: 

la moyenne: Ev, = À; 

la variance: Vv, = À; 

le coefficient de dissymétrie: B, — AL 

le coefficient d'aplatissement : B, = _ 

La variable aléatoire poissonnienne décrit le nombre de pannes 
d’une chaîne ou d’un système complexe (fonctionnant en régime 
« normal ») par unité de temps; le nombre d'’arrivées par unité de 
temps dans une station; les lois statistiques des sinistres et des ma- 
ladies rares. 

Cette loi n’est pas séduisante uniquement par le calcul élémen- 
taire de ses caractéristiques numériques et le laconisme de la for- 
mule (6.6) (qui met en jeu un seul paramètre À !). Cette loi est per- 
formante dans les situations qui s’écartent de la procédure de sa 
formation. On peut, par exemple, admettre que dans les épreuves 
de Bernoulli, l’événement étudié se réalise avec des probabilités 
distinctes p;, Pa, - --, Ph. Dans une telle situation, la loi binomiale 
ne passe pas contrairement à l'expression (6.6) qui reste valable 
approximativement et nous donne une description assez exacte de la 
répartition de la variable aléatoire étudiée, pourvu qu’on y rem- 
place À = np par À = np, où p = (p,; +... + p,)/n. D'après ce 
qui précède, on peut supposer que la population analysée est com- 
posée d’un amalgame de sous-populations telles que le nombre p 
d'objets possédant le caractère requis varie d’une sous-population 
à l’autre, donc, le nombre moyen À de réalisations en une unité de 
temps de l'événement étudié. On peut prouver par ailleurs que si l’on 
étudie non pas la valeur moyenne de ces p (ou À), mais le paramètre 
en le traitant comme une variable aléatoire, on sera conduit à une 
loi qui dans un certain sens est proche de la loi de Poisson. Si, par 
exemple, on admet que la fonction de répartition du paramètre À 
est de la forme 

k 
fi (&) = Ta a ter, 


où TD (4) = | aie dx est la fonction gamma; 4>0 et p>0 


les paramètres de la loi; x > 0 les valeurs possibles de À ; le nombre 
de réalisations (en une unité de temps) de l’événement étudié suivra 
la loi binomiale négative (6.4) (pour plus de détails sur la répartition 
f(x), cf. n° 6.2.5). 


6.1.4. Loi polynomiale. La population générale polynomiale 
est une généralisation utile de la population binomiale au cas de 
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plus de deux issues possibles. La’ population ECnerAi polynomiale 
est infinie et contient des objets de classes 1, 2, ..., L (1=> 2) 
respectivement en quantités Py, Por, + -, Pa (dans la population 
binomiale on avait L = 2, p, = p et pa = 1 — p). Donc, un objet 
de classe j apparaît avec la probabilité p; dans une expérience aléa- 
toire (un tirage aléatoire dans la population générale). On se propose 
d'étudier la loi de probabilité d’une variable aléatoire (v;’ (m), 


v® (m), ..., vO) (m)) engendrée par une expérience répétée m fois 


se est-à-dire par a échantillon de m objets), où v{®”? (m) est le nombre 
d'objets de la classe j contenus dans cet échantillon, P = (Pas Pos -.. 


., Pr) Gil est évident que 2 p;=1et 2 vO) (mn) = m). 


La répartition discrète ulidimiensionnelle correspondante est 
définie par l'expression (qui s'établit par des raisonnements pro- 
babilistes directs) 


P ht (m)= 24), ..., v(D (m) = xt} = 


m () (1) - 
= —_—_—_—— re y À : .n* 
=—Haol op Pi ‘Pi » (6.1) 
où 2), 22), ..., x sont des nombres entiers positifs quelcon- 


ques (donnés) vérifiant la condition >, à zx) = m. L'expression (6.7) 


définit la DIObAPIULE que parmi les m Gbiets tirés, 21) sont de classe 1, 
x) de classe 2, etc. On peut aussi rattacher la variable aléatoire 

RL à une expérience aléatoire répétée m fois, donnant lieu 
à chaque fois à l’une des / issues possibles 4,, A4,, ..., ÀA;, la pro- 
babilité de l'issue À; étant p}. 

Cette loi doit son nom au fait que l'expression (6.7) est le terme 
général du polynôme (p;, + ps +... + pu 

Le vecteur des moyennes (Ev,’ (m), ., Ev, (m)) et les co- 
variances O0; = E (19 (nm) — Ev® (m)) EL ue. Ev® (m))} des 
composantes de la variable aléatoire vectorielle de on définies 
par les expressions : 


les moyennes: Ev®) (nm) = mp;j;, j =1,2,...,1; 
les variances : vr0) (mn) = 055 = mp; ( — p;),j = 1,2, ...,1; 
les covariances : Ok = —Mpipr; jh k=1,2,...,l,j5=Rk. 


La loi polynomiale est appliquée essentiellement ‘au traitement 
statistique des échantillons de grosses populations dont les éléments 
se répartissent en plus de deux catégories (par exemple, dans les 
sondages sociologiques, sociologico-économiques, médicaux et au- 
tres). 


6.1.5. Loi normale (de Gauss). Cette loi est capitale dans la 
théorie et la pratique des recherches probabilisto-statistiques. En 
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1733 elle fut étudiée par Moivre pour la première fois en tant qu'ap- 
proximation continue de la loi binomiale (voir plus bas le théorème 
de Moivre-Laplace, $ 7.3). La loi normale fut redécouverte plus tard 
et étudiée indépendamment l’un de l’autre par K. Gauss (1809) 
et P. Laplace (1812). Ces deux savants sont arrivés à la fonction de 
répartition normale dans le cadre de leurs travaux sur la théorie des 
erreurs d'observation. Leur idée du mécanisme de formation des 
variables aléatoires normales est la suivante. On postule que les 
valeurs prises par la variable aléatoire continue étudiée dépendent 
d'un très grand nombre de facteurs aléatoires indépendants, l’action 
de chacun d'eux étant très petite et ne prédominant pas celles des autres 
et le caractère de cette action étant additif (autrement dit, si un facteur 
aléatoire F agit sur la quantité a, on obtient la quantité a + A (F), 
où la « contribution » aléatoire A (F) est petite et de signe équi- 
probable *). On démontre que la densité de probabilité des variables 
aléatoires de ce type est de la forme 


| (x-a)3 


p(r a, )=Vage **, (6.8) 


où a et 6°, les paramètres de la loi, figurent respectivement la moyen- 
ne et la variance de la variable aléatoire (à tout seigneur tout hon- 
neur, la densité de probabilité et la fonction de répartition de la loi 
normale seront désignées par des notations spéciales en raison du 
rôle particulier qu'elles jouent). 

La fonction de répartition de la variable aléatoire normale 
ë (a. 0°) sera notée par ® (x; a, 0“) et définie par l'expression 


x (t—a)? 


L 


Di(xz; a, 0°)=P{E(a, o) Lz}=— | e 20° dt. (6.8’) 


V/ 21 °0 e 


Convenons d'appeler réduite la loi normale de paramètres a = 0 
et o° — 1 et de désigner sa densité de probabilité et sa fonction 
de répartition respectivement par œ (x) = q (x; 0, 1) et ® (x) = 
= (x; O, 1). 

Dans de nombreuses variables aléatoires étudiées en économie, en 
technique, en médecine, en biologie et dans d’autres domaines, il 
est naturel de voir l’effet conjugué d’un grand nombre de facteurs 
indépendants. Mais la place privilégiée de la loi normale ne doit 
pas être expliquée par son universalité comme on le pensait depuis 
bien longtemps (probablement sous l'influence des brillants travaux 
de Gauss et Laplace). De ce point de vue, la loi normale est une loi 
comme une autre, avec, il est vrai, le plus vaste champ d’applica- 


._*) Ces conditions sont rigoureusement formalisées, par exemple, dans le 
théorème limite central (cf. $ 7.3). 
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tions. Et l’on comprend la pointe d'’ironie lancée par Lipman (et rap- 
portée par H. Poincaré dans son « Calcul des probabilités », Paris, 
1912): « Chacun est convaincu de la véracité de la loi normale: les 
expérimentateurs, parce qu'ils pensent que c’est un théorème de 
mathématique; les mathématiciens, parce qu’ils pensent que c’est 
un fait expérimental ». Il n’en reste pas moins que la loi normale est 
la plus attrayante et la plus commode pour la relative simplicité 
de ses propriétés et parce que tout est connu sur elle sur le plan théo- 
rique. Même si les données empiriques s’écartent de la loi normale, 
il existe pour le moins deux façons de la faire intervenir: a) l'utiliser 
comme première approximation; il n’est pas rare que les résultats 
obtenus sous cette condition soient satisfaisants pour les objectifs 
poursuivis; b) transformer la variable aléatoire £ de telle sorte que 
la loi initiale devienne normale. La loi normale est commode pour 
les applications par sa propriété d’« autoreproduction » qui se tra- 
duit par le fait que la somme de variables aléatoires normales suit 
la loi normale. Par ailleurs, la loi normale revêt une importante 
signification théorique: elle a permis d'établir d'importantes lois 
et de construire divers tests statistiques, etc. (loi du #*, loi de Stu- 
dent. loi F et les tests respectifs, cf. n° 6.2.1, 6.2.2 et 6.2.3, ainsi 
que le chapitre 11). 

Les graphiques des densités normales sont représentés sur les 
figures 5.5, 5.6, 5.10 et 5.11. 

Les principales caractéristiques numériques de la loi normale 
sont : 

la moyenne, mode, médiane: EË = x,o4 = Zmea = 4; 

la variance: VE = 0°; 

le coefficient de dissymétrie: B, = 0; 

le coefficient d’aplatissement: B, = 0. 

La loi normale bidimensionnelle décrit la répartition conjointe 
d’une variable aléatoire bidimensionnelle £ = (£%), EE) de com- 
posantes EN et E(*) continues et dont le mécanisme de formation 
est le même qu’en dimension un, les ensembles de facteurs aléatoires 
agissant sur EU et E() étant généralement non disjoints (d’où la 
dépendance éventuelle de Et et El). 

Les principales caractéristiques numériques de la variable aléa- 
toire bidimensionnelle E — (EN, ES) sont: 

mm! 
le vecteur des moyennes: = (7) où m = EE), 
1 


| | Os Op ; 
la matrice des  covariances: >, = s OÙ On = 


O1 T2 
= E { (EU) ns mi) (EC) _— m{x))} : 


ss 


O2 


le coefficient de corrélation : TE To je - 


436 FONDEMENTS MATHEMATIQUES DE LA THÉORIE DES PROBABILITÉES 


La densité conjointe bidimensionnelle œ(ztt), 2%) = f, (rt), 
2z@)) de la loi normale peut être mise sous la forme 


1 = a (0) — mp}? 
1) 2) == ————————————…—…… _……—…_…———— 0 5 l = 
z()—milt 2 mi, (x) — mi): 
és 014 | ol ii O2 ] (6.9) 


ou encore 


1 - FX MY (X-An), (6.9°) 


PP, 20) == 


+(1) 
où x=(r), l'indice « prime» symbolise la transposition d’une 


matrice ou d'un vecteur, | Z |—det(Z}) est le déterminant de la 
matrice des covariances, %-! l'inverse de la matrice des covarian- 
ces. La surface de la densité de la loi normale bidimensionnelle 
est représentée sur la figure 5.7. 

Les densités marginales Pat) (x) et p.«) (x) peuvent être 
déduites de la densité conjointe à l’aide de la formule (5.15) : 


Om 


1 


Peu) Cr e  Z2où 
11 
4 (ut) mt® y 
Rene 7 En 


Ces formules expriment que les lois marginales des composantes 
de la variable aléatoire normale bidimensionnelle sont elles-mêmes 
des lois normales à une dimension respectivement de paramètres 
mes O,1) et (mn, O2). 

s densités  conditionnelles Pre) (RUN TE = 209) et pet) x 
X … | ÈD = xD) se calculent à l’aide des formules (5.16) 
et (5.16”): 


PEUX] ED = 0) = 


LR ————_—_—— X* 
V'2n0,,(—r°) 
o! 
91 
ETS [x(1) (mi +r 
*«< € 
1 


2 02) TO LED = DO) = —— 
pre ( l'E ) V'2r0,, (1—r°) 


5 (x) m{2"))]5; 


o1! 2 
TETE [xt 2) _ (m$2°+r 2 EU) mi0))f. 
Xe US 
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De là on déduit, en particulier, que la loi conditionnelle de la 
composante El) sachant que EU) — rÜ) est de nouveau une loi nor- 
male dont la moyenne dépend, comme il fallait s’y attendre, de la 
valeur fixée 2): 


E (0) JEU) = 20) = = m1) + ra (a — mn), 


et dont la variance ne dépend pas de 20) et vaut 
V (EG | EU — 0) = 6j; (1 — r*). 


La loi normale conjointe décrit la j Lt d’une variable 
aléatoire p-dimensionnelle ë — (EG, EE), ..., E4)) à composantes 
continues 50) et dont le mécanisme de formation est pour chacune 
d'elles le même qu'en dimension un, les ensembles des facteurs 
aléatoires agissant sur elles étant généralement non disjoints (d'où 
leur éventuelle dépendance mutuelle). En se donnant le vecteur 
colonne p-dimensionnel A7, des moyennes des composantes et la 
(p X p)-matrice des covariances X (cf. n° 5.6.7), on peut exprimer 
la densité conjointe p-dimensionnelle de la loi normale conjointe 
sous la forme 


1 ÿ-1 
- SCX-Mi) à (X-M 
p (xt), 20), .., a) = —Î 6 D OL (640) 
2 
em? | À | 
où comme toujours À = (zh, 2%), ..., x)" est le vecteur co- 
lonne des variables courantes, | 2 | — det (Z), le déterminant de 


la matrice des covariances. 

La dégénérescence de la matrice X (c’est-à-dire la nullité de son 
déterminant | Z |) rend la loi correspondante dégénérée (ou singulië- 
re); cela signifie en particulier que les valeurs de la variable aléa- 
toire sont éparpillées dans un sous-espace de dimension inférieure 
à p. Hormis quelques cas spéciaux, nous admettrons toujours que 
nous nous trouvons dans cet espace de dimension inférieure à p, de 
sorte que | Z | > 0. 


6.1.6. Loi lognormale. Une variable aléatoire n suit la loi log- 
normale si son logarithme népérien In n est une variable normale. 
Cela signifie en particulier que les valeurs de la variable lognormale 
dépendent d’un très grand nombre de facteurs mutuellement indé- 
pendants, l’action de chacun d'eux étant « uniformément insigni- 
fiante » et de signe équiprobable. A noter que contrairement au mé- 
canisme de formation de la loi normale, le caractère séquentiel de 
l’action des facteurs aléatoires est tel que l’accroissement aléatoire 
provoqué par l’action d’un facteur est proportionnel à la valeur 
déjà prise par la variable aléatoire au moment de cette action (on 
dit alors que l’action des facteurs est multiplicative). Traduit dans le 
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langage mathématique, ceci devient: si n, = a est une composante 
non aléatoire de la variable n (en quelque sorte la vraie valeur de n 
dans un schéma idéal soustrait à l’influence de facteurs aléatoires), 
et Ey, E+, - - ., EN l'expression numérique des effets de l’action des 
facteurs aléatoires indiqués, alors les valeurs perturbées de la variable 
seront 

M = No + ho; 

Ne = M + Éo M: 


Nx = vu + Exnv re 
D'où l’on déduit immédiatement que 


N-1 
D ()=8+e+... + (6.11) 
où An; = i+1 — ni. Mais le second membre de (6.11) est le résultat 


de l’action additive de l’ensemble des facteurs aléatoires, donc d’après 
les conditions posées ci-dessus, cette somme suit une loi normale (cf. 
n° 6.1.5, ainsi que le $ 7.3 consacré au théorème limite central). Par 
ailleurs, vu que le nombre des facteurs aléatoires est élevé (c’est-à- 
dire que Ÿ — co) et que l’action de chacun d'eux est relativement 
petite (c'est-à-dire que An; —+ 0), on peut dans le premier membre de 
(6.11) passer à l'intégrale 
d 
| = In n—Iny=inn—ina. 


No 


Ce qui signifie en définitive que le logarithme de n (diminué 
d'une quantité constante In a) suit une loi normale avec une moyenne 
nulle, c’est-à-dire que 

Inx _(t-ina) 


1 VE 
SU e SL dt, 


d'où l’on déduit, en dérivant les deux membres par rapport à x, 
que 
1 -(Inx-Iina)? 


fn (x) = e SE (6.12) 


V2: 07 
(la possibilité d'utiliser l'identité P {n < zx} = P {Inn <Inz} 
pour le calcul de jf, (x) résulte de la stricte monotonie de In n). 

Le schéma de formation des valeurs de la variable lognormale 
qui vient d’être décrit est caractéristique à de nombreuses situations 
physiques et socio-économiques (dimensions et poids de particules 
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fn(z) f(x) 


/50 300 450 000 720 900 


Dis D 2 À DL D Li 
[ 
30 35 40 45 50 55 60 65 70 


Fig. 6.1. Histogramme et densité théorique (modèle) de la répartition des foyers 
suivant le revenu mensuel moyen par membre (a) et suivant le logarithme du 
revenu mensuel moyen par membre (b) 


obtenues par désagrégation; salaire d’un employé; revenu d’une 
famille; dimensions des formations cosmiques; durée de vie d’un 
article fonctionnant en régime d'usure et de vieillissement, etc. ; 
cf. ; par exemple [2], {3], [4]). 

Exemple 6.1.*). La variable aléatoire n représente le revenu 
mensuel par personne (en dollars) d’une famille dans une population 


*) Les données de cet exemple ont été empruntées à Zntroduction to Fre- 
quency Curves. Bull. Amer. teleph. telegr. Company, 1953, n° 1. 
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Tableau 6.1 
Nombre de données Nombre de données 
Numéro de l’inter- Numéro de l’inter- 
vale | Remote | elle | ob 
4 2 21 1 
2 45 22 3 
3 44 23 Î 
[A 83 24 2 
5 108 25 0 
6 1410 26 | 
7 83 27 0 
8 15 28 Î 
9 49 29 { 
40 34 30 2 
41 27 31 0 
42 21 32 1 
13 24 33 0 
14 13 34 0 
15 143 35 0 
16 19 36 0 
47 8 37 | 
48 3 38 0 
19 2 39 0 
20 2 40 1 


de r = 750 familles. Les tableaux 6.1 et 6.2 représentent respective- 
ment les résultats du groupement des données empiriques (x;) et 
leurs logarithmes (In z;) (la longueur d’un intervalle de groupement 
équivaut à 25 dollars). Sur la figure 6.1, a, b sont tracés les histo- 
grammes et les densités respectivement de la loi lognormale et de la 
loi normale. 


Tableau 6.2 


Nombre de données ; à Nombre de données 
Numéro de l’inter- | empiriques tombant | Numéro de l'inter- | empiriques tombant 
valle dans cet intervalle valle dans cet intervalle 


1 
2 
3 
4 
9 
6 
7 
8 
9 
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Plus bas sont exhibés les résultats du calcul des principales carac- 
téristiques numériques de la loi lognormale (en fonction des para- 
mètres a et 0°): 

1 2 

la moyenne : En = ae° * 

le mode : Znod = 2e" ; 

la médiane: Tméa = 4; 

la variance: Vn = (En)° (e°° — 1) = a°es* (89? — 1); 

1 


le coefficient de dissymétrie : f, = (e°* — 1)° (e° + 2) ; 

le coefficient d'aplatissement : B; — (e0° — 1) (e39° + 3e29° -L Ges* + 
+6). 

On remarque que les coefficients de dissymétrie et d’aplatisse- 
ment de la loi lognormale sont strictement positifs (et d'autant plus 
proches de 0 que 0“ l’est), et que le mode, la médiane et la moyenne 
se suivent dans l’ordre indiqué sur la figure 5.8 et, en outre, ten- 
dent à se confondre (et la courbe de la densité à devenir symétrique) 
à mesure que 0° se rapproche de 0. Ajoutons que bien que les valeurs 
prises par la variable lognormale soient les « perturbations aléatoi- 
res » d’une valeur « vraie » a, celle-ci joue le rôle non pas de moyenne 
mais de médiane. 


6.1.7. Loi uniforme (rectangulaire). On dit qu'une variable 
aléatoire E est uniformément répartie sur un intervalle [a, b] si 
sa densité de probabilité f: (x) est constante sur [a, b] et nulle en 
dehors, c’est-à-dire que 


— pour xEla, b]; 
fe (o) = (6.13) 


O0 sinon. 


Cette loi s'appelle aussi rectangulaire car le graphique de la fonction 
fa (x) a la forme d’un rectangle (cf. fig. 6.2). 

La fonction de répartition F4 (x) de la loi uniforme est définie 
par les relations 


0 pour x<a; 


Fi (a) = 


pour a<z<b; (6.13) 
1 pour z>b. 


Les variables aléatoires uniformes interviennent dans l'analyse 
des erreurs d’arrondi (ces erreurs sont en général uniformément 
réparties sur un intervalle compris entre —5 et “+5 unités de la 
décimale arrondie); dans la description de la durée d'attente d'un 
service rendu dans une station fonctionnant avec une période rigou- 
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reuse 7 et une arrivée aléatoire des unités (exemple le temps d’at- 
tente de rames de métro se suivant à un intervalle de 2 mn et avec 
une arrivée aléatoire des passagers est une variable aléatoire unifor- 
mément répartie sur l'intervalle [0 mn, 2 mnl). 

Signalons encore deux situations importantes faisant intervenir 
la loi uniforme. Premièrement, en analyse statistique des données, 
en théorie et en pratique on passe souvent de la variable aléatoire 
étudiée E de fonction de répartition F (x) à la variable aléatoire 
n = F (£) qui est uniformément répartie sur l'intervalle [0, 1] 
(cf. $ 7.4). Ce procédé est payant dans la modélisation statistique des 
observations suivant une loi de probabilité donnée (cf. $ 6.3). la 
construction de l'intervalle de confiance pour la fonction de répar- 
tition étudiée el dans un grand nombre d autres problèmes de sta- 
tistique mathématique. Deuxièmement, la loi uniforme est parfois 
utilisée à titre d'« approximation zéro » dans la description de la 
répartition de paramètres analysés dans le cadre de l'approche 
bayesienne en l'absence de toute information a priori sur cette ré- 
partition (cf. n° 8.6.6). 

Les caractéristiques numériques de la loi uniforme sont : 


la moyenne, la médiane : EE — Zzméd = +? ; 
la variance : VE = 

le coefficient de dissymétrie: B, — 0; 

le coefficient d'aplatissement : PB; — —1, 2. 


Signalons en conclusion une importante propriété de la somme 
de x variables aléatoires uniformes: la loi de cette somme tend 
très vile (à mesure que le nombre de termes croît) vers la loi nor- 
male. En particulier, si £; sont des variables aléatoires indépendantes 
uniformément réparties sur l'intervalle [0, 1], la densité jf, (x) 


de la variable aléatoire n, — E, + . .. + E, est de la forme 
( ST z""1 pour 0LIz<1; 
= Ci (z—1)"1] pour 1<r<2; 
fn, (&)= pr (et On (EN Ci (2 — 2)" 
pour 2<z:<3; 
rie — Ch (te + (APCE À (2 —(n— 


AÉSESNR 


—1))""1];pour n—1<Iz<n. 
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(le domaine des valeurs possibles de la variable aléatoire n, est 
visiblement l'intervalle [0. #]). La figure 6.2 nous montre comment 
la forme de la densité /,, (x) se modifie lorsque le nombre de termes 
n croît (n = 1, 2, 3). Cette propriété est notamment utilisée dans 
la modélisation statistique des observations suivant la loi normale. 


6.1.8. Loi de Weibull et loi exponentielle. Considérons un méca- 
nisme de formation de répartitions de variables aléatoires caracté- 
risant, en particulier, la durée de vie d'un élément, d'un système 


a=0 6=/ 2 J 


Fig. 6.2. Densités de probabilité (/: (xr)) d'une variable aléatoire uniforme. de 
la somme de deux (fn, (x)) et de trois (/n, (x)) variables aléatoires indépendantes 
uniformément réparties sur [0. 1] 


complexe ou d'un individu (ces problèmes relèvent de la théorie 
de la fiabilité, de l'analyse des quotients de mortalité en démo- 
graphie, etc.). Soit & la durée de vie de l’objet analysé (un système 
ou un individu) et soit F (t) = P {E <1} sa fonction de répartition 
que nous supposerons continue et dérivable. Dans les problèmes 
de cette nature, une importante caractéristique est l'intensité des 
défaillances (le quotient de mortalité) À (t) des éléments d'âge £{ qui 
est définie par la relation 


RG © nt) —n(t+a0 | 


où 7 (t) est le nombre d'objets ayant « vécu » jusqu'à l'âge t. At 
un intervalle de temps assez petit. Cela veut dire que statistiquement 
(empiriquement) le quotient de mortalité se définit comme le rapport 
du nombre spécifique (c'est-à-dire rapporté à l'unité de temps) des 
éléments « disparus » à l’âge { au nombre total n (t) d'éléments 
ayant atteint cet âge. La véracité de l'égalité approchée (6.14) 
résulte de la relation 


[n—n(t+At)}—{[n—n (t)] 2 (n) 
n(t)—n(t+ At) Aten E fr (Et) 


Ben Un) 1 ft) 
n 6 
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où n est le nombre total d'éléments ayant le même âge t, nr — n (t) 
le nombre de ceux qui n’ont pas atteint l’âge { (le rapport 
(n — n (t))/n définit la fréquence relative de l’événement {E < t}). 

La résolution de l’équation (6.14) par rapport à la fonction de 
répartition F; ({) nous donne 


t 
[ac at 
Feft=t-ed … (6.15) 


Donc, la forme de la fonction de répartition F}; (t) dépend entière- 
ment de celle de À (t) (de la dépendance du quotient de mortalité 
par rapport au temps). 

Les innombrables données empiriques (en démographie, analyse 
de la fiabilité des éléments et systèmes techniques, etc.) montrent 


À(t)-1000 74,9 


1 


0 D 
1! W 9 14 19 24 29 84 15944 49 54 59 64 69 74 t 
se Exploitation | 
Rodage Ÿ D obntate Ÿ Vieillissement et usure 


Fig. 6.3. Comportement typique de la courbe de mortalité (intensité des défail- 
lances) et courbe réelle (en escalier) de variation du quotient de mortalité de la 
population masculine française en 1955 


que dans une foule de cas la fonction À (£) est du type de la courbe 
représentée sur la figure 6.3. Sur ce graphique on voit que l'inter- 
valle temporel peut être partagé en trois périodes. Sur la première, 
la fonction À (t) prend des valeurs élevées et a nettement tendance 
à décroiître. Dans le langage technique ceci s'explique par la pré- 
sence dans la population générale analysée d’éléments présentant 
des défauts manifestes ou latents (de montage, non-réalisation de 
certaines propriétés, etc.) qui précipitent l'usure de ces éléments. 
Cette période s’appelle période de rodage. La deuxième période est 
une période d'exploitation normale caractérisée par un niveau rela- 
tivement faible et à peu près constant de « mortalité » des éléments. 
La mort (ou la « défaillance ») est subite (pannes, accidents, etc.) 
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pendant cette période et ne dépend pas de l’âge de l'élément. La 
troisième période, enfin, est la dernière période de vie (ou d’exploita- 
tion) de l'élément appelée encore période de vieillissement et d'usure. 
Les défaillances relèvent ici de phénomènes physiologiques ou phy- 
sico-chimiques irréversibles qui conduisent à une détérioration de 
l'élément, à son « vieillissement ». Sous la courbe abstraite est 
construite une courbe en escalier réelle décrivant la variation du 
quotient de mortalité de la population masculine en France en 
1955 *). Sur l'axe des ordonnées sont portés les nombres de décès 
pour mille personnes d’un âge donné. Conformément à cette courbe 
de mortalité, la période de « rodage » est comprise entre 0 et 4 ans, 
la période d’« exploitation normale » entre 4 et 39 ans, la période 
de « vieillissement », entre 39 ans et ... 

À chaque période est associée une fonction À (f), donc, une loi 
de probabilité du temps de vie E. 

Considérons la classe des fonctions puissances À (t): 


à (4) = Aocata-t, (6.16) 


où À, > U et & >> 0 sont des paramètres numériques. Il est évident 
que les valeurs & << 1. a = 1 et & >> 1 correspondent au comporte- 
ment de la fonction d'intensité des défaillances pendant la période 
respectivement de rodage, d'exploitation normale et de vieillisse- 
ment. 

En portant (6.16) dans (6.15), on obtient la fonction de répartition 
Fg (t) sous la forme suivante: 


Fy (t) =1—ekt, 120. (6.17) 
La densité de probabilité est respectivement 
fe (£) —= hom-ia-tehot®, t — 0. (6.17') 


Ceci est la loi de Weibull. On aboutit à cette loi en étudiant la 
répartition des termes extrêmes des séries variationnelles avec des 
lois diverses (cf., par exemple, (651). 

Les principales caractéristiques numériques de la loi de Weibull 
sont : 


1 
la moyenne : E=A ©-T (1 de +) ; 
0 si a< 1; 
le mode : Tmod — a (1 4 a 


si a>1; 


*) Cf. R. Pressat. L'analyse démographique. Méthodes, résultats. applica- 
nr Presses Universitaires de France, 108 Boulevard Saint-Germain Paris, 
1. 


446 FONDEMENTS MATHÉMATIQUES DE LA THÉORIE DES PROBABILITÉES 


9 
LL 


la variance: VE=h0*-[r (1 ++)-r (1 ++)] ; 


k 

le moment d'ordre k: m;=EÆEE"=à0" -T (1 + =) où T(z)=— 

œ 
= | x°"te* dx est la fonction gamma. 

0 

La loi exponentielle bien qu’étant un cas particulier (pour « = 1) 
de la loi de Weibull n’en présente pas moins en soi un intérêt indis- 
cutable. Nous avons vu qu'elle se prêtait bien à la description de la 
répartition de la durée de vie d’un élément fonctionnant en régime 
d'exploitation normale. La loi exponentielle (et elle seule) possède, 
en particulier, la remarquable propriété suivante: la probabilité 
de fonctionnement d’un élément sur un intervalle de temps [f, t + AI 
ne dépend pas du temps { antérieur mais uniquement de la longueur 
de l'intervalle A. La variable aléatoire exponentielle peut encore 
être interprétée comme une variable décrivant l'intervalle de temps 
séparant la réalisation successive d’un événement « poissonnien ». 
Le succès de la loi exponentielle tient non seulement à ses diverses 
interprétations mais aussi à l’extrême simplicité et commodité de 
ses propriétés. La fonction de répartition, la densité de probabilité 
et les principales caractéristiques numériques de cette loi sont: 


Fr(x)=1—e"hx, 220; 
f(x) =Ageh%, 120; 
la moyenne : Et ; 
0 
le mode: z,-.04 = 0; 


la médiane : Zmea = * In 2 ; 
0 


la variance : VE : 


le coefficient de dissymétrie: f, = 2; 

le coefficient d'aplatissement : 6; = G. 

Loi exponentielle bilatérale (loi de Laplace). La densité de pro- 
babilité de cette loi qui est unimodale symétrique et avec un maxi- 
mum en « pointe» en x = Ü est souvent utilisée pour décrire la 
répartition des composantes aléatoires résiduelles & (des « erreurs ») 
dans des modèles de type (3.5) et (3.9). Le graphique de cette densité 
s'obtient en « collant » la courbe de la loi exponentielle à sa symé- 
trique par rapport à un axe vertical (compte tenu de la normalisation 
requise), de sorte que l’équation de la courbe de la densité est 


f(H= henri (oo <x< 00). 
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Il est immédiat de calculer les principales caractéristiques numé- 
riques de cette loi: 

la moyenne: Eë = 0; 

le mode: zoo = 0: 

la médiane: zmea = 0; 

la variance: VE = 2/}°; 

le coefficient de dissymétrie: B, = 0; 

le coefficient d'aplatissement : B, — 


6.1.9. Loi de Pareto. Les lois « tronquées » se rencontrent assez 
souvent dans les divers problèmes de statistique appliquée. Ces 
lois décrivent le comportement de populations générales « tronquées », 
c'est-à-dire dont on a retiré tous les éléments en deça ou au-delà 
d’un certain indice c,. Le fisc, par exemple, impose les revenus an- 
nuels supérieurs à un certain taux z.. Cette situation se décrit appro- 
ximativement par la loi de Pareto dont la fonction de répartition 
et la densité sont : 


Fa(m)=P{E<a}=1—(<)", 


Ra=E (Se). 


Dans ces formules, &« > 0 et x > cs, c'est-à-dire que le domaine 
des valeurs possibles de la variable aléatoire 5 est la demi-droite 
Jco, ol. La densité est une fonction monotone décroissante dont la 
courbe est issue du point (cs, æ/co). 

Les principales caractéristiques numériques de cette loi n'existe 
que si le paramètre « satisfait à certaines conditions: 

œ 
a—1 
le mode: Zmod = Co: 

1 


la médiane: Zméa = 2° -Co; 


la moyenne: EE— co (existe pour a > 1); 


[e 2 
(œ—1)3 (œ—2) 


le moment d'ordre k: EE* — 


la variance: VE— c; (existe pour æ > 2); 


œ 
a—k 
Pour de plus amples renseignements sur la loi de Pareto, voir: 
Hagstroem. La loi de Pareto et la réassurance. — Skandinavisk 
Akturiet (1925), 65; Inkomstutjämningen i Sverige. — Skandinavsk 
Bankens Kvart, skr., April (1944). 


6.1.10. Loi de Cauchy. Cette loi est assez spécifique dans la me- 
sure où aucun de ses moments d'ordre positif (y compris la moyenne) 
n'existe. La loi de Cauchy est unimodale, symétrique par rapport à 
son mode (qui, par conséquent, est aussi la médiane) et a pour 


10% 


ch (existe pour a > k). 
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densité de probabilité 
C 


OBS y —0<LT<T 00 
A c“+(z—a)" 


où c > 0 est le paramètre d'échelle, a le paramètre du centre de 
groupement qui définit en mème temps le mode et la médiane. 
La fonction de répartition est définie respectivement par la 
relation 
TZ —a 
es. 


F(x)=++2 Arctg 


Signalons deux importantes propriétés (d’« autoreproduction ») 
de la loi de Cauchy (cf., par exemple, [40]): 

1. Si une variable aléatoire £ suit la loi de Cauchy avec les para- 
mètres c et a, alors toute fonction linéaire b, -— b,ë suit la même 
loi avec les paramètres c” = | b, |:c et a” = b,-a — b,; 

2. Si des variables aléatoires &,, E,, . . ., ë, sont indépendantes 
et obéissent à la même loi de Cauchy, leur moyenne arithmétique 


E = (E, +... + E,)/n suivra aussi cette loi. 


6.1.11. Quelques combinaisons des principales lois de probabi- 
lité modèles utilisées en statistique appliquée. On peut obtenir des 
lois de probabilité en combinant les lois modèles. Certaines des 
plus « commodes » sur le plan de la méthodologie et des applications 
sont décrites plus bas. 

Un modèle proche de la loi normale mais tenant compte de la non- 
nullité des coefficients de dissymétrie (B,) et d'aplatissement (B.) (cf. 
n° 5.6.6) peut être défini par la densité 


a) = pa) — À ço (2) + gt (2), 


où œç (x) est la densité de la loi normale et q*) (x) ses dérivées. Ce 
modèle est engendré par des développements asymptotiques dans le 
théorème limite central (cf. [40]}) qui montrent comment la loi d’une 
somme de variables aléatoires indépendantes se rapproche de la loi 
normale. On voit sur la figure 6.4 comment la non-nullité des coeffi- 
cients de dissymétrie et d’aplatissement influe sur la densité f (x). 
À noter que l'expression de la fonction f (x) a été établie sur des 
considérations asymptotiques, donc, d’une façon générale, elle ne 
définit pas la densité de probabilité pour toutes les valeurs de f, 
et B:. 

Pour être fixés sur les valeurs que peuvent prendre les coefficients 
B, et B: dans les applications, signalons, suivant [117], que —0,9 < 
LP, L 0,9 et —0,6 L BP: L 1,8 pour de nombreuses lois utilisées 
en technique, en biologie, en chimie et en météorologie. En démo- 
graphie, par exemple, ces coefficients prennent des valeurs très 
grandes; ainsi, ils varient dans l'intervalle (2,0; 6,3) dans la ré- 
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partition de l’âge des femmes qui se sont mariées entre 1907 et 
1914 en Australie, et dans l'intervalle (2.0 ; 5.3), pour les hommes. 
Le modèle d'un mélange de lois de type donné f; (x; 0;) est décrit 
par la formule 
k 


= arf: 0), 


dans laquelle f; (x; 8;) et f (x) sont les densités (dans le cas continu) 
ou les polygones de fréquence (dans le cas discret) respectivement de 


Fig. 6.4. Densité de la loi normale (x) et ses dérivées (3) (x) et ç(1) (x) 


la j-ième composante du mélange et de la loi de probabilité résultante, 
1;, la probabilité a priori d'apparition dans un échantillon aléatoire 
d'une observation de loi f; (x; 8;) (c'est-à-dire le poids spécifique 
de telles observations dans la population générale). À le nombre de 
composantes du mélange. L’analyste est confronté à de telles lois de 
probabilité lorsque. par exemple, il est amené à analyser une popu- 
lation générale composée de plusieurs sous-populations qui tout en 
étant homogènes dans un certain sens (ce qui peut s'exprimer. par 
exemple, par l'unimodalité de la loi de probabilité /f; (x; 6,)) sont 
fondamentalement différentes l'une de l’autre (par exemple. par la 
valeur du paramètre 6;). Ceci étant. le paramètre 60; peut définir 
aussi bien le centre de groupement des observations correspondantes 
(auquel cas il s'interprète comme un paramètre de localisation) que 
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le degré de leur dispersion aléatoire (il est alors interprété comme 
un paramètre d'échelle). 

On peut trouver de plus amples informations sur les mélanges 
des lois dans [9]. Dans [43] et [1371 sont décrits des exemples de 
mécanismes naturels réels empruntés à l’économie et à la nature, 
qui amènent à considérer un mélange de lois. 

Rappelons quelques cas particuliers de modèles de mélanges 
utilisés par de nombreux chercheurs pour établir des inférences 
statistiques stables. 

Le modèle de Tuckey de la loi normale « pollué » est appliqué, 
par exemple, à l'étude de l'influence des ailes allourdies de la ré- 
partition sur les propriétés des estimations de la moyenne inconnue 
(cf. n° 8.6.4). Ceci étant, on part du fait que les observations sont 
« extraites » d’une population générale définie par une densité de 
probabilité de la forme 


f(a)=(—e) (zx; a; 03) + e-p (x; a, 0°), 


où ç (zx; a. 0“) est la densité de la loi normale; e le taux (en général, 
relativement peu élevé) des observations « polluantes » et où les 
variances des deux composantes sont reliées par l'inégalité 0% << 0%. 

Modèle de pollution de Chouryguine. Les pollutions rencontrées 
dans la pratique sont souvent dissymétriques. Pour traduire ce fait, 
on peut introduire dans le modèle du mélange de lois un paramètre 
supplémentaire a exprimant l'écart de la pollution par rapport à la 
loi principale de densité Ÿ (x, 8, o). Il faut alors envisager un modèle 
de mélange de la forme 


f (&) = (1 — e)v (x, 8, o) + eh (x — 6 — a), 


où 6 et © sont respectivement les paramètres du centre de groupe- 
ment (de localisation) et d'échelle, À la densité d’une loi symétrique. 
Pour lever l'arbitraire qui préside au choix de = et présenter les 
résultats obtenus pour diverses valeurs de a sous une forme moins 
volumineuse, on a proposé (cf. [34]) de considérer le schéma des séries 
d'épreuves suivantes: dans chaque série on prélève un échantillon 
ordinaire suivant un mélange de lois, ceci étant, on admet par 
souci de simplicité que la pollution est toujours concentrée en un 
point (8 + a), mais au passage d'une série à une autre, le paramètre a 
est choisi de façon aléatoire et suit une loi normale de moyenne nulle 
et d’écart-type ko. Le modèle de Chourvguine s'est avéré plus com- 
mode pour l'analyse. 


6.2. Lois de probabilité utilisées dans les calculs statistiques 


6.2.1. Loi du y*. On décrit plus bas cinq lois de probabilité 
qui se prèétent particulièrement bien à la construction de divers 
tests statistiques et à l'estimation par intervalle des paramètres: 
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la loi du « khi deux »: la loi t de Student ; la loi F de Fisher dite 
encore loi du rapport dispersionnel; la loi B (« bêta »); la loi T 
(« gamma »). L’explication du mécanisme d’action de ces lois peut 
être liée à la « statistique de la loi normale », c'est-à-dire à l’étude 
des répartitions de certaines fonctions de variables aléatoires indé- 
pendantes suivant la loi normale réduite. 

L'astronome F. Helmert a appliqué la théorie gaussienne des 
erreurs pour étudier la somme des carrés de variables aléatoires 
normales. Cette étude l’a conduit à une fonction de répartition 
Fyum) (x) que plus tard K. Pearson a appelée fonction de répartition 
de 4° *) et qui est définie par 


(0 pour z<0, 
| 1 SE 
(of Pme) Î 6 e “dt (6.19) 


Fyum) mm, 
5 m 
2°T (=) 


pour z>0, 


où m est un paramètre >>0 appelé nombre de degrés de liberté, T (y) 
la valeur de la fonction gamma au point y. 
La densité de probabilité correspondante est définie par 


4 m4 — 
faum) (ZT) = ———— "23? € 2, z > 0. (6.18") 
2r(e 
27r(+) 
Pour m < 2 la densité décroît constamment (si x > 0) et pour 


m>2 présente un seul maximum au point Znog = M — 

La loi du z* est apparue pour la première fois dans l'é Stude de la 
répartition d'une suite de variables aléatoires indépendantes 
Étbiiiie on suiv ant la loi normale réduite. Il s’est avéré que la 
variable aléatoire 7° (m)= 8: +—...+ E% suit la loi du 4° à m degrés 
de HIDÉRE: Ceci entraine l'important résultat suivant: si s° (n) — 


D (x; — x (n))°/n est la variance empirique construite avec les 


obsers ations indépendantes Lys Los + + +, Zn d'une variable aléatoire 
normale de paramètres (a. 02), alors la variable aléatoire ns? (n)/0? 
est répartie selon la loi du 42 à n — 1 degrés de liberte, soit 

ns mL 


= #?(n—1). (6.19) 


*) Helmert F.R. Über die Wahrscheinglichkeit von Poten=summen der Beo- 
bachtungsfehler etc. Z.F. Math. und Phys.. 21 (1876) ; Pearson K. Onthe criterion 
that a given system of deviation from the probable in the case of correlated system of 
variables..., 6 Phil Mag. », V. 50 (1900), 157. 
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Citons encore deux importants résultats acquis en appliquant 
la loi du 4? au traitement statistique des données. 

Supposons que la variable aléatoire & admet une fonction de 
répartition Fz;(x; 0,, .... 8,) dépendant suffisamment différentia- 
blement *) de s paramètres inconnus 6,, . .., 6,. Supposons qu'on 
ait réussi à construire à l'aide de l'échantillon x,. x:, . . .. x, des 
estimations assez bonnes (efficaces ou asymptotiquement efficaces, 


cf. $ 8.3) 6,, 8, . . ., 6, pour les valeurs inconnues des paramètres 
6,, 6,, . . ., 6, (dans la loi normale les paramètres 0, et 8, ne sont 
autres respectivement que la moyenne m et la variance 02, et leurs 
estimations, des fonctions des observations x (n) ets? (n)). Définissons 
par ailleurs les probabilités: 


( P {E= ri} = F: CRE : ô,, .. 6,) — 


| — Fi (xi; 6, PT 8.) si £ est discret ; 
Pi= À =) à >: 
| Fi(zi+: ; 6,, 9 0.) — 


— F:(xi; 0,, ..., 0,) si £ est continu, 


où x? et ee sont respectivement la i-ième valeur possible de £ et 
l'extrémité gauche du i-ième intervalle de groupement (i = 1,2,.. 

. K); k le nombre total de valeurs possibles ou d'intervalles de 
groupement, les valeurs de F; aux extrémités étant égales à 0 (en 


Zj OU x°) et à 1 (en Th+t. ou Zh+1). Si vi(i = 1,2,...,k)est le nombre 
d'observations égales à r° (ou tombant dans le i-ième intervalle de 
groupement), la loi de la mesure intégrale de l'écart entre les îré- 


e e e. V CR 0 e 
quences relatives empiriques — et les probabilités correspondantes p; 


S Léo SE )° 
Pi Vi)” 


i= 1! i=Î 


tend vers la loi du 4° à À — s — 1 degrés de liberté lorsque 7 — oo. 
Ce résultat est appliqué pour vérifier les hypothèses statistiques 
concernant la forme de la loi analysée (cf. $ 11.1). 

Si dans les conditions et les notations du résultat précédent, 
on ajoute un deuxième échantillon parent x, x,. . . .. x,.(les fré- 


*) Pour que le résultat ultérieur regroupant les théorèmes de K. Pearson 
(1900) et R. Fisher (192 JA soit valable, il suffit d'exiger l'existence des dérivées 


U= ess): 


partielles continues 
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quences relatives respectives étant v;/n'), la quantité 


Vi v: 


k 
"12 — n.n _). Mie nl ; 
x2(k—1)=nen 3 —. (= —— (6.24) 
i= 
suivra une loi qui tendra vers la loi du 42 à À — 1 degrés de liberté 
lorsque min (n, n’) —+ co. Ce résultat est utilisé pour vérifier l'hypo- 
thèse d’homogénéité de deux échantillons distincts et peut être 
généralisé à plus de deux échantillons (cf. $ 11.2). 
Les principales caractéristiques numériques de la loi du %?(m} 
sont : 
la moyenne: Ey?(m) = m; 
le mode: Zzno = Mm—2(m>2); 
la variance: V{2(m) = 2m; 
23/? 
Vm 


9 
le coefficient d'aplatissement : PB, — — 


le coefficient de dissymétrie f, = 


6.2.2. La loi { de Student. En analysant les écarts aléatoires 
de la moyenne empirique x (n) par rapport à la moyenne théorique 
m, = EE de Ë, le statisticien anglais V. Gosset (qui écrivait sous le 
nom de plume de Student) a obtenu le résultat suivant en 1908 *). 
Soient &9, Es - + -» Em des variables aléatoires indépendantes norma- 
les de paramètres (0, 02). La densité de probabilité de la variable- 
aléatoire 


m Le 
(D) 
est ou 
1 r (=) 2 De 
Dr Serres DE (— © <r< + 00). 


(6.22y 


La loi (6.22) s'appelle loi de Student à m degrés de liberté (ou loi 
t(m)). On voit que la densité (6.22) ne dépend pas de la variance 
o? des variables E; et, de plus, est unimodale et symétrique par 
rapport au point x = (0. 

Citons quelques résultats utilisés pour le traitement statistique 
des données empiriques extraites d’une population générale normale. 

1. Six, ze, . - .. a, est un échantillon d’une population générale 


normale de paramètres (a, 6°), et x (n) et s° (n) sont respectivement. 


*) Student. The probable error of a mean. — Biometrika, B, 6 (1908), 1. 
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la moyenne et la variance empiriques, construites sur les observations 
de cet échantillon, alors la variable aléatoire 


t(n—1) = CUS (6.23) 


est répartie suivant la loi de Student à n — 1 degrés de liberté. 
Ce résultat est utilisé dans l’estimation des intervalles de variation 
du paramètre inconnu a = EË, ainsi que pour vérifier l'hypothèse 
statistique concernant l'appartenance de l'échantillon considéré à 
une POREANOE normale de moyenne donnée EË = a (cf. chap. 8 et 9). 
Si, en se plaçant dans les conditions et les notations de l’ exem- 
ple précédent on considère un deuxième échantillon parent x’, x... 
.. Zn (la moyenne et la variance empiriques de cet échantillon 
étant respectivement x’ (n’) et s’2(n')), alors la mesure normalisée 
de l'écart des deux moyennes empiriques 


(z(R)—2" (n' | des Er 
s(n, n') 

suit la loi de Student à nr + 7° — 2 degrés de liberté (l’écart-type 

commun s(r, nr’) de la formule (6.24) est défini par la relation 


t(n+n'—2)=— (6.24) 


s2(n, n')= rez + s° (n”)). 

Ce résultat est utilisé pour vérifier l'homogénéité des moyennes 
empiriques construites sur deux échantillons distincts extraits de 
populations normales (cf. n° 11.2.5). 

Les principales caractéristiques numériques de la loi t (m) sont : 

la moyenne, le mode, la médiane: Et (m) = ïzpoj = Tméa = 0; 


? 


la variance: Vt(m) — —— (n'existe que pour m> 2); 


le coefficient de dissymétrie: f, = 0; 
le coefficient d'aplatissement : B2= — 
M > 4). 


6.2.3. Loi F (loi du rapport dispersionnel). L' analyse du compor- 
tement du rapport de deux variances empiriques s? (n) et s'2(n') 
construites sur les observations de deux échantillons x, x, . . ., za 
et x, z,, - - +, æn’ Extraits de la même population normale, à conduit 
en 1924 le statisticien anglais R. Fisher à une loi *) qui a reçu le nom 
de loi F et qui dans le cas général peut être définie comme suit. 


(n'existe que pour 


*) Fisher R. On a distribution yielding the error functions of several well- 
known statistics. — Proc. Intern. Math. Congr. Toronto, 1924, 805. 
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Considérons m, + m, variables indépendantes E,, 


No + - - Nm, Suivant une loi normale de paramètres (0. o2) et posons 
m1 
1 
mms £2 
M: Si 
=! 
F (m,, Mo) — m2 
1 : 
nn 20 
j=i 


Il est évident (cf. n° 6.2.1) que cette variable aléatoire peut égale- 
ment être définie comme le rapport de deux variables y? (m,) et 
42 (m2) indépendantes, convenablement normées, soit 


On démontre que la densité de probabilité de la variable aléatoire 
F (rm, m2) est 


pme \ NT moe 
rm, ma) (&) = | | 


mime (0 x < 0), (6.25) 
(mMz+ ma) - 
où comme toujours l (y) est la valeur de la fonction gamma au 
pou y- La loi définie par (6.25) s'appelle loi F à (m,, m.) degrés de 
iberté. 
La loi F est utilisée de la manière suivante pour le traitement 
statistique des données. 


Se 


4. Si s2(r) = È (x; —z(n))2/(n—1) et st(n)= à (x — zx (n°)}? 


sont les variances empiriques construites sur des os inde- 
pendants z,....,2, et x,..... x, extraits d'une même population 
RARE alors le A ODOIL s2 (n)/s'2 (n°) obéit à une loi F à (nr — 1, 

— 1) degrés de liberté. 

2. Soient X,, À: -.-., À, un échantillon d'une population 
normale p-dimensionnelle de vecteur des moyennes EX = M et de 
matrice des covariances E {(X — m)(Â — m) } = 3 et soient 
X (n)et S (x) le vecteur des moyennes empiriques et la matrice des 
covariances empiriques construits à l'aide de cet échantillon (cf. 
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n° 5.6.7). Alors la variable aléatoire 


1e —E .(X— M) S1(X— 9) (6.26) 


n — 1 


suit une loi F à (p. n — p) degrés de liberté. Dans l'expression 
(6.26) le facteur 


T= n(X(n) — M) S1(X (n) — M) (6.26') 


est la généralisation de la t-statistique de Student (6.23) utilisée 
pour vérifier l'hypothèse concernant la valeur de la moyenne et peut 
être interprété comme la caractéristique de l'écart géométrique 
(au sens d’une métrique de Mahalanobis, cf. [16]) entre la moyenne 
empirique X (nr) et la moyenne théorique AJ. 

3. Considérons maintenant un deuxième échantillon X}, .…, À ne 
de la même population normale p-dimensionnelle et les caractéristi- 
ques empiriques correspondantes : le vecteur des moyennes X’ (n') 
et la matrice des covariances S’( n'). Introduisons la matrice des 


covariances empirique S (r, n°) construite sur les deux échantillons : 
S(n, = -S(n) + S’ (n° ). 


L’analogue multidimensionnel de la t-statistique (6.24), utilisée 
pour tester l'homogénéité de deux moyennes empiriques, est la 
quantité 


T=— X' (n°) S1(n, n')((X (R)—X" (x). 


de plus, la variable aléatoire 
n+n'—p—i T2 = 
ide T (6.27) 


est répartiesuivant une loi Fä(p,n + n° — p — 1) degrés de liberté. 
Les principales caractéristiques numériques de la loi F (m,, m2) 
sont : 


(si seulement m, > 2); 


la moyenne : EF (m,, Mm)= — 


(M; —2):m; 


m1 (M2 + 2) 


la variance : VF (m,, ma) = EEE (pour m >4); 
1 2 D — 


le mode: Znod = (pour m, > 1); 


(2m,+ ms — 2) V8 (m2—4) 


le coefficient de dissymétrie : = ——_— 
. Pi (m:—6) V m+m—2 


(pour m: > 6). 
De là il s'ensuit immédiatement que pour m,, m2 > 2, la loi F 
admet toujours un mode <<1 et une moyenne >>1. Cela signifie, en 
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particulier, que cette loi admet un coefficient de dissymétrie stricte- 
ment positif non seulement pour m, > 6 (ce qui résulte de la forme 
de B,) mais aussi pour m,, M: > 2. 

Fisher a établi cette loi non pas pour la variable aléatoire 
F (m1. m2), mais pour son logarithme népérien (divisé par deux), 
c'est-à-dire pour la variable aléatoire t= In F(m;, m2). La 
loi de cette variable est souvent appelée loi z de Fisher. Mais les 
statisticiens préfèrent utiliser la loi F pour ses propriétés plus simples. 


6.2.4. Remarque sur les lois non centrées du y*, F et £. Dans 
ce numéro, on introduit les lois appliquées à l’étude de la puissance 
des tests statistiques de modèles linéaires. 

On dira que x suit la loi N (u, 02) si x est une variable aléatoire 
normale de moyenne pu et de variance 02. 

On appelle loi du y? non centrée à m degrés de liberté la loi de la 


m 
variable aléatoire u— Ÿ) x?, où x. ..., zm sont des variables 
im! 
aléatoires indépendantes suivant la loi normale N (u;, 1). La quantité 
m 
ô = (5, u?)!? s'appelle paramètre de décentrage de cette loi. Cette 


1= 
loi est généralement désignée par y? (m, 6), notation qui est correcte, 
puisque la loi de u ne dépend de u,, . .., u, que par l'intermédiaire 
de ô. Lorsque.ô = 0. on dit que u suit une loi du y? centrée qui est 
notée #°? (m). 
La moyenne et la variance de y? (m, Ô) sont: 


E (x (m, Ô)) = m +6, Vyx(m, Ô) = 2m + 40°. 


Addition de variables aléatoires suivant une loi du y* non centrée. 
Si x (m. Ô,) et 4° (m,. Ô,) sont indépendantes, leur somme suit 
aussi une loi du y*(m, Ô), où m = m, + m, et Ô — (à? + 6:)!/*. 
Si les variables aléatoires 4° (m,, Ô) et 4° (m.) sont indépendantes, 
la loi du rapport F'(m,, m,; Ô) = Lee 
2 2 
centrée à (m,, m,) degrés de liberté et de paramètre de décentrage 6. 
Si x suit la loi normale W (u, 1) et si la loi du y* (m) est indé- 


s'appelle loi F non 


pendante de x, la loi du rapport t (m, Ô) = s'appelle loi t 


2(m)/m 
de Student non centrée à m degrés de liberté et de paramètre de décen- 
trage Ô — |u |. Il est évident que E (m, ô) = F (1, m; ô). 


6.2.5. Loi gamma. Les deux lois qui seront décrites ultérieure- 
ment représentent des familles de lois à deux paramètres assez vastes 
et souples qui englobent diverses combinaisons des lois des variables 
déjà étudiées. Les lois gamma et bêta sont importantes surtout par 
leurs applications dans les calculs: en effet, elles peuvent servir à 
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calculer les lois du #°, t, F, etc. (cf., par exemple, [27]). De plus, 
la loi gamma est parfois utilisée en modélisation: elle décrit, par 
exemple, la répartition des revenus et des épargnes de la population 
dans des conditions spéciales (cf. [3], [4]). 

La loi gamma à deux paramètres de la variable aléatoire » (a, b} 
est décrite par la densité de probabilité: 


ba 
—— 1%" ie* pour xE[0, cl: 
fre. nt = TQ) RE 
0 pour z<<Ü, 


où Tl'{a) est la fonction gamma, a >> 0 le paramètre de « forme » 
et b > 0 le paramètre d'échelle. Il est immédiat qu’une variable 
aléatoire suivant une loi gamma de paramètres a et b (nous désigne- 
rons cette variable par y (a, b)) est reliée à la variable aléatoire 
y (a, 1) par la relation élémentaire (cf. aussi $ 7.4): 


by (a, b) = y (a, 1). 


Signalons quelques propriétés utiles de la loi gamma. 

1. Un coup d'œil sur la formule (6.18”) de la densité de probabilité 
de la loi du 4° (m) nous montre qu'elle est un cas particulier de la 
loi gamma: il suffit de poser a = m/2 et b = 1/, dans (6.28). 

2. La somme d’un nombre quelconque de variables aléatoires 
Ya (us D) + Ye (Ge, D) +... + Yn (an, bd) est aussi une variable 
aléatoire y (a, + . .- . + an, b). 

Les principales caractéristiques numériques de y (a, b) sont: 


la moyenne : Ey(a, b=— ; 


a—i 
b 


le mode: znod — (pour a>1); 


la variance Vy(a, bD=— ; 


le coefficient de dissymétrie: B,= : 
a 


le coefficient d'aplatissement : B=—. 


6.2.6. Loi bêta. On a signalé plus haut que la loi bêta à deux 
paramètres se distinguait par sa grande souplesse et son universalité : 
elle peut servir notamment à calculer les lois #*, F#, binomiale, 
binomiale négative, etc. Elle est utilisée aussi pour décrire certaines 
répartitions concentrées sur l'intervalle [0, 1] (par exemple, la ré- 
partition des probabilités subjectives obtenues par un sondage 
d'experts, cf. n° 4.1.3). Désignons par $ (a,, a.) une variable aléatoire 
suivant une loi bêta de paramètres a, et a (0<<a << œ,0<a << 
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<< æ). Cette loi a pour densité 


Tata) o-1(4—2)2"1 pour x 0, 1]; 
ÎBta, a2) = '(a1) F (az) : É Pi (6.29) 
0 pour tous les autres zx. 


Signalons quelques propriétés utiles de la loi bêta. 

1. Si y (&, b) et y(a2, b)sont deux variables aléatoires indépendan- 
tes, le rapport + (a, b)/(Y(a1,b)+ 
+ y (a2, b)) suit une loi bêta de 
paramètres a, et &@2. 

2. La variable aléatoireB (1,1) 20 
est uniformément répartie sur 
l'intervalle [0, 1] (cf. n° 6.1.7). 

3. La fonction de répartition 
du carré de la variable aléatoire 
de Student f*(m) (cf. n° 6.2.2)  Z0- 
est liée à la fonction de réparti- 
tion de la variable aléatoire B 
par la relation 


s(a, O2 ) (Z) 


Fisçm) (&) = 05 10 zx 


2? 
= 1 m (=) - Fig. 6.5. Représentations graphiques 

F$ (- +) Ha des densités de la loi bêta pour diffé- 
rentes valeurs des paramètres a, et 
do: 1— a = 2, a3 =4; 2 — a, =4, 


4. La fonction de répartition a, = 2; 3— & = 1/2, a, = 4/2 


d'une variable aléatoire F(m,m:) 
(cf. n° 6.2.3) est liée à celle de la variable aléatoire B par la relation 


m1Z 
Free, (mme) (me). 


9. Entre la fonction de répartition de la variable aléatoire B et 
celles des lois binomiales (cf. n° 6.1.1), on a les relations suivantes : 


ñn 
Fptm,n-m+1) (x) = > Céx} (—zx)""" ; 
k=2=m 


Fin, m) (1 — 2) Le Chili" (1 — x)". 


6. Une analyse directe de la densité (6.29) met en évidence la 
symétrie des densités j (ar, as) (7) et fptas, ay) (T) Par rapport à la 
droite x — 0,5 (cf. fig. 6.5), ce qui en termes de fonctions de répar- 
tition s'écrit 

Fra. a2) (x) = 1 — Fos, a1) (1 — x) 
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(c'est pourquoi, notamment, on se limite généralement au cas 0 < 
< a, < a, lorsqu'on compose les tables de la loi bêta). 

Les principales caractéristiques numériques de la variable aléatoire 
B (a, a) sont: 

la moyenne : Ef (a;, QG) = 
a —1 


le mode: Zinog = Ha 


(pour a >1et & >); 
Gide : 
(aa) (a +as +1) ? 
2 (a2 — ai) Vatati 
(ai + as + 2) V' aa: 


la variance: VB(a,, a) = 


le coefficient de dissymétrie : B, — 


6.3. Technique de simulation statistique d’observations 
suivant une loi donnée 


6.3.1. Génération de nombres aléatoires uniformément répartis 
sur l’intervalle [0, 1]. Il existe deux méthodes de génération de 
nombres aléatoires par un ordinateur: une méthode « physique » 
qui consiste à connecter l’ordinateur à un générateur de nombres 
aléatoires (par exemple, un compteur déterminant le nombre de 
particules « émises par une source radioactive durant un intervalle 
de temps donné) et une méthode mathématique qui consiste à utili- 
ser les commandes standards de l'ordinateur pour générer une suite 
régulière de nombres qui semblent aléatoires pour un observateur et 
qui vérifient toutes les inégalités que sont censés vérifier les nom- 
bres aléatoires. De tels nombres sont dits pseudo-aléatoires. La mé- 
thode mathématique fait actuellement recette pour plusieurs rai- 
sons. Tout d’abord en simulation statistique il est important de 
pouvoir reproduire une suite de nombres aléatoires pour voir, par 
exemple, comment une autre méthode de traitement statistique 
opérera avec les mêmes données. D'autre part, il est difficile de 
garantir un fonctionnement normal des générateurs physiques. Et, 
enfin, il existe actuellement des générateurs mathématiques qui 
sont simples et sürs à la fois. 

Pour générer des nombres pseudo-aléatoires &,. E:, . . ., En, . .. 
on se sert le plus souvent de la méthode des résidus (générateur multi- 
plicatif) : 

u, est un entier <2", 
Un = Un M (mod 2"), E, = u,-27, (6.30) 


où m et Af sont des entiers constants spécialement choisis. La fixation 
du nombre initial uw, définit une seule suite de nombres £;. Comme 
le nombre des u, est inférieur à celui des résidus mod 2", la suite E; 


CH. 6. LES LOIS DE PROBABILITÉ MODÈLES LES PLUS UTILISÉES 461 


admet une période L < 2". Cette.période dépend en générale de us. 
La formule (6.30) peut être mise sous la forme 


Eo = U2 ”, En = {MEËn-1}; (6.31) 


où {VV} représente la partie fractionnaire du nombre Y. 

La formule (6.31) permet de se représenter plus nettement le 
caractère de la dépendance entre les E,;. Développons à cet effet le 
nombre Ë, sous forme d’une fraction infinie suivant les puissances 
de Af-1, c'est-à-dire que E, = aM-t + a M2 + a;MS + ... 
ou encore E, = 0, a;asas . . ., où chaque a; peut prendre les valeurs 
de 0 à Af — 1. De la formule (6.31), il s'ensuit alors que &, = 0, 
Enan+1 + --, C'est-à-dire que pour obtenir £, il suffit de déplacer 
dans &, la virgule de x rangs à droite et d'éliminer la partie entière 
égale à aus . .. an. 

Les valeurs suivantes de m et A7 ont fourni de bons résultats 
pratiques : 

m—2%, M—5% [51]; 


m — 240, M — 517 [51]; 
m = 235, ]{ = 56 [79]; 
m=— 23%, M —2718281821 [79]. 


La qualité d’une suite de nombres pseudo-aléatoires se mesure 
à l’uniformité avec laquelle les vecteurs de dimension # pour k — 
—=1,2,..., K, où X est de l’ordre de plusieurs dizaines, 


n? = (Ë,, ..) Ex); NT = (En+s ee...) Eox) 5 = (Extn-1)+1r se Enx) 


recouvrent le cube unité de dimension #. 

Dans [51] on peut trouver les résultats de la vérification d'un 
générateur pour l'ordinateur BESM-6. Les problèmes mathémati- 
ques relevant de la construction des générateurs de nombres pseudo- 
aléatoires sont traités le plus systématiquement et le plus exhausti- 
vement dans le tome 2 de la monographie de Knuth [79]. On y dé- 
crit aussi une méthode montrant comment utiliser deux générateurs 
« indépendants » de périodes Z, et L, pour obtenir un générateur 
d’une période de l’ordre de Z;-L,. Cette méthode peut être utile 
pour générer des nombres pseudo-aléatoires sur un ordinateur à mots 
courts. 

Pour décrire les méthodes de génération des nombres aléatoires, 
on se servira dans la suite du langage Fortran et l’on admettra que 
dans le programme principal est décrit un générateur de nombres 
pseudo-aléatoires qu’on peut appeler à l'aide de l'opérateur CALL 
RAND (R), où R est le nom du nombre pseudo-aléatoire. Le sous-pro- 
gramme RAND (R) calcule le nombre pseudo-aléatoire &,+, à l’aide 
du nombre Ë, contenu dans la cellule R et le loge dans KR. 


11-0273 
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6.3.2. Simulation des variables aléatoires discrètes. Méthode 
standard. La méthode générale de simulation d’une variable aléa- 
toire discrète À prenant des valeurs x, avec les probabilités p,, 


k=1,. ., m; > pa = 1, est basée sur la formule évidente sui- 
À 
vante: 
1-1 ! 
P{X=x}=2? [2 Pa SE 2 Pa} = Pr 


où, pour la commodité de l'écriture, on a posé p, = 0, et E est une 
variable aléatoire uniformément répartie sur l'intervalle [0, 1]. 
Supposons que les valeurs x; et p, sont enregistrées respective- 
ment dans les cellules 4, et P,, £ = 1, ..., À. Le programme (en 
Fortran) de calcul de la variable aléatoire À s'écrit dans ce cas: 


SUBROUTINE DISCR (K, A, P, X) 
. DIMENSION A (K), P (K) 
. CALL RAND (R) 
DO 8I=1,K 
R=R—P (I) 
. IF (R)6,6,8 
X = X (I) 
GO TO 9 
. CONTINUE 
9. RETURN 
10. END 
Si les probabilités p, sont liées par une relation récurrentielle 
simple pz+1 — Par (k), on peut ne pas introduire le bloc P à l’avan- 
ce, mais calculer les valeurs p, dans le programme. Par exemple: 
a. Pour la loi binomiale de paramètres p,n 


_PROR IA — À — Pre _ (m—k) ,_p_. 
Pr = Cnp (ip) tr) ==: 


k=0, 1, 01 n — 1. 


b. Pour la loi de Poisson de paramètre À 


D 1 9 En PL N° re 


pa = ei et r(k)=À/(k+ 1); k=0, 1, y ec. 


a. Loi binomiale. Pour calculer les valeurs d’une variable aléa- 
toire binomiale À de paramètres p et nr, on peut se servir aussi de 
la simulation statistique, plus exactement, procéder à n réalisations 
indépendantes d'une variable aléatoire uniformément répartie 
Euh = 1,..., n,et poser X égal au nombre de cas où E;  p. Le 
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programme correspondant (en Fortran) s’écrit : 


SÜBROUTINE BINOM (N, P, X) 
1. X = 0.0 
. DO6I=I,N 
. CALL RAND (R) 
. IF(R — P)5,5,6 
.X=X+1.0 
. CONTINUE 
. RETURN 
. END 
b. Loi de Poisson. Les valeurs empiriques de la variable aléatoire 


poissonnienne À de paramètre À sont générées aussi par une métho- 


de de simulation statistique directe basée sur le fait que X peut être 
définie comme 


oo 1 on à © D 


n 
X=min!{n: || &, <exp{—À}}. 
im! 
Le programme correspondant s’écrit : 


SUBROUTINE POISSN (P, X) 
1. X = 0.0 

. B=EXP {—P) 

. TR = 1.0 

. CALL RAND (R) 

. TR = TR*R 

. IF(TR —B)9,7,7 

.X=X +1.0 

. GO TO 4 

9. RETURN 

10. END 


EXP (X) appelle la procédure standard de calcul de exp {x}. 
Le paramètre formel p remplace À. 


ND 


oO 1 © on à Co 


6.3.3. Simulation de lois continues. Commençons par une mé- 
thode standard. Supposons qu'une variable aléatoire n admet une 
fonction de répartition F (x). La méthode standard de simulation 
de n repose sur le fait que la variable aléatoire F (n) est uniformé- 
ment répartie, donc, la variable aléatoire F-1(E), où F-1(-) est 
la fonction inverse de F (x), est répartie comme n. 

À titre à’exemple traitons le cas où n suit une loi exponentielle, 
c'est-à-dire que P {n <zr} = 1 — exp {—ixr}. Alors F-1{(u) — 
11e 
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= — ]n (1 — u}/l et n peut être simulé comme 
n = FE) = — In (1 — E)/I 
ou comme —In £//, puisque £ et { — £ sont parentes. 
Le programme correspondant est 


SUBROUTINE EXP (L, X) 
1. CALL RAND (R) 


2. X = — LN (RyL 
3. RETURN 
4. END 


Simulation d'une variable aléatoire normale à une dimension. 
D'après le théorème limite central (cf. n° 7.3.1), la variable aléatoire 


n(r) =V 12/n 2 (E — 0,5) (6.32) 


suit approximativement la loi normale reduite. 
Le programme correspondant est le suivant: 


SUBROUTINE NORMAL (EX, STDX, X) 
1. SUM = 0.0 
2. DO4I— 1, 12 
3. CALL RAND (R) 
4. SUM = SUM +R 
5. X = STDX*(SUM — 6) + EX 
6. RETURN 
7. END 


Lorsque nr = 12, la formule (6.32) est souvent utilisée pour si- 
muler la loi normale dans le cas où les valeurs élevées (>3) de |n } 
ne jouent pas un rôle essentiel. Pour améliorer l’approximation, 
L. Bolchev [26] a proposé une correction non linéaire pour n (n): 


Gr) = n (2) + (n° (7) — 3n (7))/(20n). 
Mais si l'analyste s'intéresse aux grandes valeurs de | n | ou s’il 
a besoin de réaliser plusieurs fois la loi normale, il peut se servir des 
formules exactes qui mettent en jeu un nombre moindre de nombres 


pseudo-aléatoires. Dans ce cas, les variables aléatoires normales 
réduites sont générées par couples: 


m=ŸV —2In£sin(2nE) et m—V —21nEcos(2x£). (6.33) 


Les formules (6.33) sont basées sur une propriété classique de la loi 
normale, savoir que si n, et n, sont des variables aléatoires réduites 
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indépendantes, l’angle formé par l'axe des abscisses et le vecteur 


de sommet (n,, ne) suit une loi uniforme et ne dépend pas de V n+,ni. 
Le carré de la longueur du vecteur (n,. n2) est réparti dans ce cas 
suivant une loi de 4° à deux degrés de liberté qui est simulée comme 
un cas particulier de la loi ex- 
ponentielle avec E — 0,5. 
Simulation d’un vecteur nor- 
mal (M, Z) non dégénéré multi- 
dimensionnel. Tout d'abord, on 
simule le vecteur n° = (n1,... 
…. Mp), Où Ni ( = 1, .... p) 
sont des variables aléatoires nor- 
males réduites indépendantes, à 
l'aide d'une des méthodes dé- 
crites plus haut. puis on calcule 
le vecteur & en se servant de 
la transformation & = An + .}/. 
où À est une matrice triangulaire 
telle que AA” = S. 


Conclusions 


Dans le tableau 6.3 sont re- 
produites les propriétés des lois 
les plus couramment utilisées 
dans les recherches statistiques. 
Ce tableau résume le présent cha- 


Fig. 6.6. Abaque pour la détermina- 


pitre. Pour s'en servir, il faut 
savoir que 

la colonne 3 qui est destinée 
a recevoir la procédure générale 


tion d'une estimation du paramètre de 
forme « dans la loi de Weibull sur le 
vu du carré du coefficient empirique 


de variation VE: 


(ou le mécanisme) de formation 
des valeurs de la variable aléatoi- 
re ne décrit qu'une des éventuelles variantes de ce mécanisme: 

Ja colonne 6 (consacrée aux estimations statistiques des paramè- 
tres de la loi de probabilité) ne doit être consultée qu'après lecture 
du chapitre 8 qui permet de se faire une idée sur la méthode d’éta- 
blissement des estimations citées ; 

dans ce tableau on n'indique une méthode d'acquisition des esti- 
mations que dans le cas où la méthode du maximum de vraisemblan- 
ce n’a pas été utilisée; 

dans la colonne 4, la liste des exemples de situations réelles justi- 
ciables de la loi de probabilité indiquée est loin d'être complète 
et sa description n a pas l'ambition d’être circonstanciée et rigou- 
reuse. 
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Loi et variable 
aléatoire corres- 
pondante 


Schéma général (méca- 
nisme) de formation des 
variables aléatoires 


Exemples de variables 
aléatoires suivant la loi 
considérée 


1 | Binomiale v,(m) 


Nombre vp(m) d’appari- 
tions d'un événement 
dans une suite de m ex- 
ériences indépendantes, 
a probabilité d’appari- 
tion de cet événement 
dans une épreuve étant 
constante et égale à p 


RÉ 


1. Nombre de pièces dé- 
fectueuses dans un lot de 
taille m extrait d’une 
production stationnaire 
en série 

2. Nombre d'individus 
(d'objets) possédant cer- 
tains caractères parmi 
m prélevés au hasard 
dans une population gé- 
nérale 


ELLE 


2 | Binomiale négative| Nombre 


v> (4) 


v=(k)  d'expé- 
riences indépendantes né- 
cessaires pour réaliser k 
fois l'événement étudié, 
la probabilité d'appari- 
tion de cet événement 
étant constante et égale 
à p 


GR 


1. Durée de vie d'un sys- 
tème (mesurée en cycles 
de fonctionnement) pos- 
sédant k—1 éléments en 
réserve (se  branchant 
automatiquement) 

2. Taille de l'échantil- 
lon nécessaire pour pré- 
lever au hasard k£ objets 
jouissant des propriétés 
données 


3 | Hypergéométrique 
Vu, n(m) 


Nombre vy,n(m) d’ob- 
jets possédant une pro- 
priété donnée parmi m 
objets tirés au hasard 
(sans remise) dans une 
population générale de N 
objets dont Af jouissent 
de la dite propriété 


Nombre de pièces défec- 
tueuses dans un échan- 
tillon de taille m prélevé 
au hasard dans un lot de 
N pièces dont Af sont 
défectueuses 
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Tableau 6.3 


Définition analytique 
de la loi : polygone de 
fréquence P{E= x} 

ur les variables 
aléatoires discrètes et 
densité de probabilité 
f (x) pour les variables 
continues et domaine de 
valeurs possibles de la 
variable aléatoire 


P{vL (m) = z}= 


= Cp (1— p}M-x, 
z=0,1,2,...,m 


Valeurs approchées 
(estimations statisti- 
ques) des paramètres de 
la loi calculées sur les 
résultats des observa- 
tions x1, xe, .…., Xh 


de la variable aléa- 
toire étudiée 


n 
DE? 
a im 1 
P= mn 3 
où z; est le nombre d’ap- 
aritions de l'événement 
tudié dans la i-ième ob- 
servation, c'est-à-dire 
dans la i-ième série de 
m épreuves indépendan- 
tes 


Expressions de la moyen- 
ne E£, de la variance 

VE, du coefficient de 
dissymétrie B1, du coef- 
ficient d'aplatissement 

et des covariances 

Oh (dans ie cas multi- 
dl 


mensionnel) en fonc- 
tion 2e PA SLres de 
a 10 


Ev (m)=mp 
Vvp(m)=mp(1—p) 


pd 
 Vmp(i—p) 
5 —1—6P4—p) 
2 mp(i—p) 


FU (k)=z}= _. Æ © " Ev, = 
= Ci ph(1—p}T"h, PT n 74 FE k(1—p) 
=k, k p RTS . Vi (= ——— 
Er où z; est le nombre d'’ex- p () P° 
périences réalisées au __ 2—p 
cours de la i-ième obser- Bi=  VKU—p) 
vation jusqu’à la k-ième P 
apparition de l'événement B;— 1+4 (1 —P) + 
étudié 7 k({—p) 
A Con 
k(1— p) 
P {vy. nim)=7}= Pour une valeur connue M 
pe mx du paramètre  : Evar, n(m)=m 
Cyr CN 
ee n Vvas, Nm) = 
CN DE M M 
=n y |1-7)x 
z= max {0,m—(N—M)), a NN =! 
M=—. ———, m 
max {0, m— m n X (1-7 
—(N—M)}+1, .….,  loù z; est le nombre d'ob- M 
min{m, M} jets dénombrés au cours (1—2 +) 
de la i-ième observation, = ——— 
possédant la propriété M ; M 
indiquée parmi m objets id | -5) X 
prélevés au hasard dans . 
une population de taille N (N—2m)Vr—1 


2) VA =m 


Ba = (cf. n° 6.1.2) 
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Loi et varlable 
aléatoire corres- 
pondante 


n 


4 | Poisson (des évé- 
nements rares) Vo 


nee général (méca- 
rame) de formation des 
variables aléatoires 


Nombre “4 [Poisson (des évé-| Nombre  d'apparitions| 1. Nombre de pannes d'un| 
pendant une unité de 
temps d’un événement 
dont la réalisation ne dé- 
dend ni du nombre ni de 
la date de ses réalisations 
passées et n'’influe pas 
sur ses réalisations futu- 
res, les expériences ayant 
lieu en régime station- 
paire 


5 Fo po are (mul-| Nombres v,°? (m), 


tinomiale) 


Ce va (m), …, +0 (m) d'ap-| tion de m objets en fonc- 
Fe — Daritioné d'événe- tion de ! caractères, ces 
mi (M); | ments 4, 4.,.…, Al objets étant extraits d'une 
VSD (m)) (formant un système| population générale dont 
complet, c'est-à-dire deux | Chaque objet possède 
à deux incompatibles et obligatoirement l’un de 
dont la somme est un| Ces caractères 
événement sûr) dans une 
série de m expériences 
indépendantes, la proba- 
bilité de 4; étant cons- 
tante et égale à pau 
cours d’une épreuve 
6 | Normale Les valeurs de la varia-| 1. Ecarts par rapport aux 
(de Gauss) ble aléatoire se forment | valeurs nominales des 
E (a, 0?) sous l'influence d’un| paramètres d'articles 


grand nombre de facteurs 
aléatoires mutuellement 
indépendants, l'action 
de chacun d'eux étant 
petite et ne prédominant 
pas celle des autres, et le 
caractère de cette action 


de|p 
née 


Exemples de variables 
aléatoires suivant la loi 
considérée 


1. Nombre de pannes d’un 
rocessus industriel (c'est- 
a-dire fonctionnant en ré- 
gime d'exploitation nor- 
male) en une unité de 
temps 

2. Nombre d'unités ar- 
rivant pendant une unité 
de temps dans un systè- 
me de files d'attente 

3. Nombre de sinistres 
ça de décès des suites 
e maladies rares) pen- 
dant une unité de temps 
dans une population don- 


Coillection de nombres 


définissant la distribu- 


produits en série dans 
des conditions station- 
naires 

2. Erreur de calcul 

3. Erreur de tir 


mm 
F 
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Suit» 
Définition analytique Expressions de la moyenne | 
fréquence b'(Eme) pour | qersleuis abprochées | ES. de la variance VS. du | 
ee es ations statistiques coefficient de diss trie 
les variables aléatoires des paramètres de la loi du coefficient hole 


discrètes et densité de B1. à 
probabilité f (x) pour les calculées sur les résultats t{ssement B+ et des cova 


des observations x, riances © ;, (dans le cas 
k 
A 4e xs, +. Xp de la var fable multidirhensionnel) en 
sibles de la variable aléatoire étudiée fonction des paramètres 
aléatoire de la loi 


Az ñn Evo=àÀ 
P = = FA a | 
{Vo z} 71° ’ i=— } Zi, Vvo= À 
2—0, 1: 2: {mi 4 
où x; est le nombre d’ap- Bi A 
paritions de l'événement 
étudié pendant la £-ième NS 
unité de temps * À 
P {vS (m)= ri), … n Ev®) (m)= mp), 
I V0) É 
…., VO (m)=20) = A Ti j= 1,2, ….,i 
= . i=1 
à PD= = —., Vi0) (m)=mp; X 
zU)] .. 2°! . 1—p;), j=1,… 
ü) {D où z0) est le nombre A d le 
XP Pi » d’apraritions de l'évé- SR MP PR 
(= 0. 1, 2 nement À au cours de la Fo l: 
done ee A i-ième observation, c'est- LR 
G=1,2, .…., D à-dire dans la i-ième sé- J 
rie de mæ épreuves indé- 
pendantes 
Dimension un: i: ES (a, o°)=a 
f(a)= DIE VE (a, 0°)= 0° 
" Zero): és <q 
= — a | a 2 = 
V 2no ” [ot— , (z; —a)? . 
— 0 << Z << 00 dan im | E {6 — m0) x 
Dimension nr: n X (ER) — my} = on 
ü=1S x 
AT (pi Ë 


œ 
fl 
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= 


d 


Loi et variable 
aléatoire corres- 
pondante 


Lognormale 1 


Schéma général (méca- 
nisme) de formation des 
variables aléatoires 


étant additif, c’est-à-dire 
ue l’action d'un facteur 
aléatoire sur une quan- 
tité ‘a nous donne une 
quantité a+ A, où A est 
une contribution aléa- 
toire relativement petite 
et de signe équiprobable 


Les valeurs de la varia- 
ble aléatoire se forment 
sous l’action d'un grand 
nombre de facteurs aléa- 
toires mutuellement in- 
dépendants, l’action de 
chacun d'eux étant uni- 
formément insignifiante 
et le caractère de cette 
action, multiplicatif : 

l'« accroissement »  aléa- 
toire dùü à l’action de 
chaque facteur est pro- 
ortionnel à la valeur de 
a variable aléatoire au 
moment de cette action, 
autrement dit, l'action 
d'un facteur sur une 
quantité a nous donne 
une quantité a<-Aa, où 
À est un petit coefficient. 
aléatoire de signe équi- 
probahle 


Exemples de variables 
aléato suivant Ja loi 
considérée 


1. Le salaire d'un em- 
ployé prélevé dans une 
population générale 
2. Le revenu moyen par 
membre d'une famille 
rélevée dans une popu- 
non générale de famil- 
es 
3. La durée de vie d’une 
pièce exploitée en régime 
d'usure et de vieillisse- 
ment 
&. Dimensions et volume 
de particules désagrégées 
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Définition analytique 
de la loi : polygone de 
fréquence P{E= x} pour 
les variables aléatoires 
discrètes et densité de 
probabilité f (x) pour les 


Suite 


Expressions de la moyenne 
EE, de la variance VE, du 
coefficient de dissymétrie 
B1. du coefficient d’apla- 
tfssement Ba et des cova- 
riances Ojh (dans le cas 


Valcurs approchées 
estimations statistiques) 
es paramètres de la loi 

calculées sur les résultats 
des observations x1, 
 Xn de la varlable 


variables continues et °< 
, : LXA, +. multidimensionnel) en 
Roms Ine es et aléatoire étudiée fonction des paramètres 
aléatoire de la loi 

f (zx) = x ; 1 4 (j; k=1, 2, .…, P) 

= Î SZ — X;—M 1) = l 

: —; D Ai Mx m0) = EE() 

i=i 


= HX- M) (X-M1) 

x e , 
— 00 < z(ù < ©, 
i= 1, 2, cs P: 


où X = (zU1), …, z(P))' est 
le vecteur colonne des 
valeurs données (couran- 
tes) des composantes de 
la variable aléatoire 
multidimensionnelle 


È 

role 
— > 
t4 


1 
f (x)= oc: 


_ün x-in a): 
, 3 
xe 20 : 


0<zrz<o 


(= 1, 2, .… p) 
X (Xi—M;)", 


où Mi=(m!1, … 
use m(p))" et 


Ê = (oin)p k=1, … p 


ES A 1 
a= ZT >: } — 0° 
méd ( :) En = ae 2 
(cf. n°S 5.6.2 et 5.6.4); Re 
k | Vn=a"e"" (e°"—1) 
Oo — ET X 1 
n = (8% —1)# x 
7* > (inz;—In a)° X (e%°+ 2) 
i= 1 Ba = (09° — 1) x 


X (099 + 3e 0° + 
+ 6e7° 6) 
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o Loi et variable 
n aléatoire corres- 
pondante 


Schéma général (méca- 
nisme) de formation des 
Variables aléatoires 


Exemples de variables 
aléatoires suivant la Jot 
considérée 


8 | Uniforme (rectan- 
gulaire) € 


9 | Exponentielle & 


Le mécanisme de forma- 
tion des valeurs de la va- 
riable aléatoire est tel 
que la probabilité d'ob- 
tenir une observation 
dans n'importe quel voi- 
sinage de l'intervalle {a, b] 
de ses valeurs possibles 
dépend uniquement de la 
largeur de ce voisinage 
et non pas de sa position 
dans [a, b] 


Intervalle de temps aléa- 
toire séparant deux évé- 
nements poissonniens (cf. 
n° 4 de ce tableau) 


1. Erreur d’arrondi dans 
des calculs numériques 
où le nombre de décima- 
les est fixé 
2. Durée d'attente d'un 
service dans un système 
dont les guichets (sta- 
tions) fonctionnent pério- 
diquerment et dont les 
unités (clients) arrivent 
uniformément pendant 
cet intervalle 
3. Approximation zéro 
dans la description de la 
répartition a priori des 
aramètres analysés dans 
‘approche bavésienne 
(cf. n° 8.6.6) 


1. Durée de service dans 
des systèmes de files d’at- 
tente 

2. Durée de vie d’une 
pièce fonctionnant en 
régime normal d'exploi- 
tation (cf. n° 6.1.8) 

3. Durée d'une opération 


technologique 
4. Intervalle de temps 
séparant deux pannes 


consécutives de machines 
fonctionnant en régime 
stationnaire 
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Suite 


Expressions de la moyenne 

Valeurs approchées EE, de la variance VE, du 
(estimations statistiques) coefficient de dissymétrie 
des paramètres de la loi B1, du coefficient d'apla- 
calculées sur les résultats tissement Ba et des cova- 


Définition analytique 
de la loi : polygone de 
fréquence P{5=x) pOur 
les variables aléatoires 
discrètes et densité de 


probabilité / (x) pour les des observations x riances © ,, (dans le cas 
. Q R 
ds de xa, …, x. de la varfable muitidiéeniionne) ên 
sibles de la variable aléatoire étudiée [ER HIQR See pan tres 
e la lo 


aléatoire 


. zE[a,b]; a= min (nr) — Ep ie 


f(a)=10—c =. 
0, zé{a, b], —<n2x @= ra Se ve = 6e" 
zC{a, b] x 
b= Zmax (2) + B1 = 
+ Zmax (7) —Zmin (n) Ba= —1,2 
n —1 
où 
Zmin(r)=min{z, 
Zos ce. Zn} ; 
Zmax (7) = max {x1, 
Lay cr Zn} 
À : 0) A 
der rs 8= Zmin (nr) — Ei=—+0 
f (a)= 4 pour : 26; _Z—#min(n) . 1 
0 pour r <86, n i Vé=sr 
zE[0, oo [ fe 1=2 
LT — 0 B: = 6 
où 


Zmin (a) = min {z, 


Los ce Tn]; 
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0 Loi et variable 
n aléatoire corres- 
pondante 


140 | Weibull (troisième 


Schéma général \mecee 
nisme) de formation des 
variables aléatoires 


Première variante : 


type de lois limi-| les observations suivant 


tes des valeurs 
empiriques extrêé- 
mes) E 


la loi de Weibull sont 
générées par des essais 
«à la durée de vies», la 
fonction d'intensité des 
défaillances « le quotient 
de mortalité ») À (t) étant 
une fonction puissance, 
c'est-à-dire que À(t)— 
= l(œ> 0) 
Deuxième variante : la loi 
de Weibull décrit la ré- 
partition des plus petites 
valeurs dans des échan- 
tillons de grande taille 
extraits de populations 
générales, l'intervalle des 
valeurs possibles de E 
étant borné à gauche 


Exemples de variables 
aléatoires suivant Ja loi 


considérée 


1. Durée de vie d'un sys- 
tème ou d’une pièce fonc- 
tionnant en régime de 
rodage (0 << &< 1), d’ex- 
ploitation normale (œ = 1) 
ou d’usure et de vieil- 
lissement (œ& > 1) 

2. Nombre de cycles (du- 
rée) avant la destruction 
d’un prototype dans des 
essais à la fatigue 

3. Minimum (sur plu- 
sieurs années) d’un pro- 
duit consommé en une 
année (par exemple, con- 
sommation annuelle d’eau 
sur plusieurs années dans 
l'analyse des sécheresses) 
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Suite 


Définition analytique 
de la loi : polygone de 


fréquence P {Ex} pour 
les Variables aléatoires 
discrètes et densité de 
probabilité f (x) pour les 
variables continues et 
domaine de valeurs pos- 
sibles de la variable 


Valeurs approchées 
estimations statistiques) 
es raramètres de la loi 

calculées sur les résultats 
des observations x1, 
ZX .. Xn de la variable 


aléatoire étudiée 


Expressions de la moyenne 
EË, de la variance VE, du 
coefficient de dissymétrie 
B1. du coefficient d'apla- 
tissement B2a et des cova- 
riances © ;, (dans le cas 


multidimensionnel) en 
fonction des paramètres 


aléatoire de la loi 
a—i L’estimation & du para- 1 
AazT ! X mètre a est définie tout| Et © r 14) 
f (z)= Ke 0x2! d'abord comme la ra- & 
: pourz >0; cine de l’équation : 
T7 ? 9 | 
0 pour z < 0, r(1++) VE= A, © [r(1+£)- 
e. Œ 
zE[0, LH = — T5"? n(i+4)] 
T° ( +=) 
, | 


où v£ est le coefficient 
de variation empirique 
de E (cf. n° 5.6.3, ainsi 
que la figure 6.6), puis 
est calculée l'estimation 


i=! 
(méthode des moments) 
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Loi et variable 
aléatoire corres- 
pondante 


11 | Laplace (exponen- 
tielle bilatérale) E 


12 | Pareto E 


———@—_—__—_—_—_—_—_—__—— 


Schéma général (méca- 
nisme) de formation des 
variables aléatoires 


Caractère de la variation 
aléatoire de la variable 
aléatoire étudiéedans’des 

pulations générales 

’où ont été extraits tous 
les éléments dont les va- 
leurs du caractère étudié 
sont inférieures à un ni- 
veau Co 


Exemples de variables 
aléatoires suivant la loi 
considérée 


Répartition de la com 
sante aléatoire résiduelle 
e dans certains modèles 
de régression de la forme 
Y—) (X; 0) Le 


Répartition du revenu 
moyen par personne dans 
une famille extraite d’une 
population composée uni- 
quement de familles dont 
le revenu moyen par 
membre est ‘supérieur à 
un niveau donné © 


I CI PE NN CN ES EP 4 GENE 
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Définition analytique 
de la loi : polygone de 
fréquence P {£==x} pour 
les Variables aléatoires 
discrètes et densité de 
probabilité f (x) pour les 
variables continues et 
domaine de valeurs pos- 
sibles de la variable 
aléatoire 
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Valeurs approchées 
estimations statistiques) 
es paramètres de la loi 

calculées sur les résultats 
des observations x1 
X3o co Zn de la variable 
aléatoire étudiée 


f@)= + eA1s 1, | 


n n 
— À Izil 


i=t 


laid 


—©@© <z<oo 


14. Méthode des moments 


_@ (2) 
Co \ z pour & > 2 (cf. n° 8.6.2) : 
pour z > Co; 

0 pour z< Co, 


* Co SZ << 00 


EE) fa=1+V'1408: 


ou 
C 


où Ve est le coefficient 
de variation empirique 
2. Réalisation approchée 
de la méthode du maxi- 
mum de vraisemblance 
(cf. n° 8.6.1): 


2 4 
Co = Zmin (nr) — : 


, 
a [= 
A =| — X 
n 
TZ; 


(ET 


Co 


ñn 
X De In 
im 1 
OÙ Zmin (7) = 


— min {z,,.…., Zn} 
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Suite 


Expressions de la moyenne 
EE, de la variance VE, du 
coefficient de dissymétrie 


B1. du coefficient d'apla- 
tissement Be et des cova- 
riances © k (dans le cas 


mens Onre) en 
fonction Pt paramètres 


la loi 


Eë = 0 


Bi = 0 
Be =3 


D - 
a—1 ° 
(existe pour «> 1) 


VE = 


EE = 


œ 2 
(a—1}#(a—2) 
(existe pour & > 2) 


Œ__ h 
ESR = Co 9 


k=3,4, … 
(existe pour & > k) 


2—0273 
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0 Loi et variable Schéma général (méca- Exemples de variables 
n aléatoire corres- nisme) de formation des aléatoires suivant la loi 
pondante variables aléatoires considérée 
13 [Cauchy & Le rapport de deux va- 


riables aléatoires norma- 
les indépendantes de 
moyenne a—0 et de va- 
riance c°=— 1 suit une loi 
de Cauchy de paramètres 
a=0n et c=1 


14 | x? à m degrés de 

liberté 4° (m) variables aléatoires nor- 
males réduites indépen- 
dantes £, (0, 1), &e (0, 4), … 


m (0, 


ee. 


X2(m)= Ÿ, (0. 1) 


i= 


— En (0, o) 
1 5 2 0.09))Z 


i= | 


où Ep (0. 02). .…. Em (0, 0°) 
sont des variables aléa- 


Somme des carrés de m | 1. Variance 


empirique 
normalisée construite sur 
un échantillon d'une po- 
ulation générale norma- 
e (cf. (6.19)) 
2. Mesure de l'écart en- 
tre les lois théorique et 
empirique (cf. (6.20)) 


1. Mesure normalisée de 
l'écart de deux moyennes 
empiriques calculées sur 
deux échantillons indé- 
pendants d'une popula- 
tion générale normale 
(cf. (6.24)) 

2. Ecart normalisé de la 
moyenne empirique (cons- 
truite sur un échantil- 
lon d’une population nor- 


D mm 
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Suite 


Définition analytique 
de la loi : polygone de 
fréquence P {EE — x} pour 
les variables aléatoires 
discrètes et densité de 
probabilité / (x) pour les 
variables continues et 
domaine de valeurs = 
sibles de la variable 

aléatoire 


Expressions de la moyenne 
Valeurs approchées EË, de la variance V:. du 
(estimations SHALAtIqUeS coefficient de dissymétrie 
des paramètres de la lo B1. du coefficient d'apla- 
calculées sur les résultats t ent Ba et des cova- 
des observations x riances 6, (dans le cas 


“a, #n de la varfäble | muitidisensionnel) en 
aléatoire étudiée fonction des parAmeires 
e la lo 


1 c Méthode de substitution, 
fG)= =" ; | dans les relations entre 
TZ c°+(z—a) ; 
uantiles et paramètres 
— 0 << ZI << 00 de la loi, des quantiles 
empiriques : 


a = TZ méd (n); 


C— T((0,75n+1]) — 
: — Tméd V), 

où [A] est la partie 
entière de À ;: 
Zméd (7) est la médiane 
empirique, Z((0,75n+1)] 
le quantus empirique 
d'ordre 0,75 (c’est-à-dire 
le [0,75n—+1]-ième 
variationnelle cons- 
truite sur l'échantillon 
étudié (cf. n°5 5.6.4 et 
5.6.5)) 


1 Ex? (m)= 
f ()=— X [+5 2) X(m)=m 
22rf" Fr Ln DE VX (m) = 2m 
(5 im à 
où [A] est la partie 2 
Toi + entière de À (méthode Bi = ee. 
NE des moments) Vm 
142 
0 << z< oo pau 
1 S 25?” Et(m)=0 
fG)= —— x n=| = |, (m) 
V'm :s3—1 Vt (m)= m 
r me où [A] est la partie m—2 
9 | entière de À et (existe pour m > 2) 
B1 = 
r (+) 1 © _ 
2 D, ns — +2 6 
_m+i on 2 Es 2 m4 
2 : 
X (1+2=) . |la variance empirique (existe pour m > 4) 
m 


(méthode des moments) 


12® 
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o Loi et variable 
n aléatoire corres- 
pondante 


16 | Fisher (loi F à (m., 
m.) degrés de li- 
berté) F (mi; ma) 


117 | Gamma (a, b) 


Schéma général (méca- 
nisme) de formation des 
variables aléatoires 


toires normales indépen- 
dantes de moyenne O0 et 
de variance c?(0° est un 
nombre strictement posi- 
tif quelconque) 


F(m;, m2) = 


LS 
me 23 8 (0, 0°) 
i=i 
M+mMa 
D: #(0. 9°) 
immy+i 
où E1 (0, 0°), Es (0, 0), .… 
vs Ehitme (0: 0%) 


sont des variables aléa- 


Mo 


Exemples de variables 
aléatoires suivant la loi 
considérée 


male) par rapport à la 
valeur théorique respec- 
tive (cf. (6.23)) 


1. Rapport de deux va- 
riaDces empiriques cons- 
truites sur deux échan- 
tillons indépendants ex- 
traits d'une population 
générale normale (cf. 
n° 6.2.3 

2. Analogue multidimen- 
sionnel de la statistique 
T° de Student qui décrit 
l'écart de deux moyennes 
vectorielles empiriques | 
construites sur deux 
échantillons indépendants 


toires indépendantes nor- | extraits d’une population 


males de moyenne 0 et de 
variance g°(9? est un 
nombre quelconque >> 0) 


énérale normale multi- 
imensionnelle (cf. (6.27)) 
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Suite 


Définition analytique 


de la loi : polygone de 
fréquence P{E= +} pour Valeurs approchées 


les variables aléatoires (estimations statistiques) coefficient de d trie 


Expressions de la moyenne 
EË. de la variance V!, du 


, Ci 
discrètes et densité de des paramètres de la lol Bar du coefficient d'apla 


MEITE Cpeantes | eniquiés ur les réuttat Fa des var 


, lances dans 1 
jee ebIes Contes 6 za, «es Sn de la Varläble | :multidtrelonnel) en 
Dites 08 le vario e aléatoire étudiée fonction des paramètres 
aléatoire de la loi 
fr (m1, m2) (x) = Pour m: > 4: EF (m1, me)= Mo 
r mi + Mo A Oz Ms — 2 
7 9 Mo = [= | ; (existe pour m2 > 2) 
= ———— ———— x z—1 
r(\r() a VE (ms, m:)= 
2 } 2 m1 = [2m3 (m2 — ___ 2mi(Mmitme—2) 
us pe — 2) {52 (me — 2) (Ma — ma (ma—2)3 (m2 —4) 
XM1, Me X — (existe pour m, > 4) 
m1 _; | — 4) — 2me} JE B _(2m;,+m,—2) x 
L z ? où [4] est la _partie | M1 (mn, —6 x 
mitma ? |entière de Aet zet s2 
(mizbme) 2 la moyenne et la varian- X_ V 8 (m:—4) 
à ce empiriques (métho- X Vmitma—2 
0<r< 00 de des moments) 


(existe pour ma > 6) 


Î, (a, b) (z) = 


(2) Ey(a, b=— 
b _\s/? - 
“ za-le-bx = a 
(a) — VyGe, b=—— 
“| pour z > 0: h s3 ? 9 
0 0 où zet s? sont la moyen- Pi = 
PEUR pe et la variance em- Va 
0 z< piriques (méthode des 


6 
moments) = 
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0 Loi et variable 
n aléatoire corres- 
pondante 


18 | Bêta B (a;. a) 


Schéma général nes 
nisme) de formation des 
variables aléatoires 


Exemples de variables 
aléatoires suivant la loi 
considérée 


Vaste classe de variables 
aléatoires dont les valeurs 
Res sont comprises 
ans l'intervalle [0, 1] 
(par exemple, les proba- 
bilités subjectives d'ex- 
perts, relatives à un 
événement donné) 
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Définition analytique Expressions de la moyenne 
de la loi: PONENE de Valeurs approchées EE, de la variance VË. du 
fréquence P {5 pour (estimations statistiques) coefficient de dissymétrie 
les variables aléato des paramètres de la loi | B3, du coefficient d'apla- 
discrètes et densité de calculées sur les résultats | tissement Ba et des cova- 
probabilité / (x) pour les des observations x riances o;,, (dans le cas 
donuireste le bas xs, %y de la variable |  multiditénsionnel) en 
sibles de la variable aléatoire étudiée fonction es porn tres 
aléatoire 


T (ay +a a = z(1—2 a] 
Tail) a re X ay= 7 (202 1) : EB (a;, LE pre 
xa1-i4{— 2 7. Z(1—2) h VB (a, a) = 
f)=i z)2-1 pour : si Gid2 
0Zz< 1; —1) (+ a){arat+ 1) 
0 pour les au- ! B = =2 (10). 
Vas où z et s° sont la moyen- 1 (a+ @2+2) 
0<s<1 Diriques (méthodes mo | x-Vérre ti 
ments) Vas 
B. = 3 3 (aa), 
: aja3 
(ai + a+ 1) x 
(a+ a: +2) 
(a1 +1) (24: — a) +. 
(a1+ 0: +3) 


di (a: — 2) 2 


n dits 


CHAPITRE 7 


RÉSULTATS FONDAMENTAUX DE LA THÉORIE 
DES PROBABILITÉS 


Nous avons exposé plus haut les notions fondamentales de la 
théorie des probabilités y compris les lois de probabilité modèles 
les plus répandues dans le traitement statistique théorique et prati- 
que des données. Le présent chapitre est consacré à la description de 
certaines relations entre des notions et modèles, ainsi que de certai- 
nes de leurs propriétés indispensables à la maîtrise des méthodes de 
modélisation probabilisto-statistique et de traitement primaire des 
données qui seront développées plus bas. 


7.1. Inégalité de Tchébychev 


Au n° 5.6.3 nous avons introduit la principale caractéristique 
de l’éparpillement aléatoire des valeurs d’une variable aléatoire: 
la variance 0° = VE. De la définition de cette caractéristique il 
s'ensuit que la probabilité P { |E — a | > A}, où a = Eÿ et A est 
une quantité donnée, croît avec 0“. Plus la variance 0° est élevée et 
plus seront probables les grands écarts des valeurs de £ par rapport 
à son centre de groupement a = EE. Il est évident que si l’on connaît 
la densité de probabilité f: (x) (ou le polygone de fréquence), on 
peut calculer exactement la probabilité d'événements de la forme 
{1 —-a]2> A) en l'occurrence 


f: (x) dx si & est continue; 


P _— — A _ x: |x-a| A 7.1 
{I —a| 24} D 7 si ë est discrète. ee 
4: xŸ—al >A 


Si, par exemple, £ est une variable aléatoire normale de paramètres 
(a, 0°), la probabilité de l’événement { | ë — a | > A} ne dépend 


que du rapport —. 


Mais il serait intéressant d'estimer la probabilité de tels événe- 
ments uniquement à l’aide de la variance do = VE et sans connaître 
exactement la loi de probabilité de la variable aléatoire £. La solution 
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de ce problème est donnée par l'inégalité de Tchébychev *) 
P{IE—el>A}< (7.2) 


A° 9 
où a = EE et o = VE = E(ë — a). 
La démonstration de cette inégalité est simple: 


P{È—al>A}j= | fGdr< 
x: Ix-a| A 
< | ()rodet (eo tdr= + 


x: [x-ai >A 


(si la variable aléatoire est discrète, on remplace les « éléments de 
probabilité » f: (x) dx par les probabilités p; — P {£ — zx;} et les 
intégrales par les sommes correspondantes). 

De cette démonstration il ressort que si la loi de probabilité de 
la variable aléatoire E est symétrique (par rapport à a = EË), on a les 
inégalités suivantes : 

P{È—a>A}=P{a—t>A}< sr. (7.2") 

Comme tout résultat général n’utilisant pas la forme concrète de 
la loi de probabilité de &, l’inégalité de Tchébychev ne donne qu'une 
majoration grossière des probabilités d'événements de la forme 
|È—a]l> A}. Si, par exemple, l'on estime l'événement 

| — a | > 30} pour la variable aléatoire normale Ë, en se servant 
de l'inégalité de Tchébychev, on obtient 
Oo 1 
P{IE—a12380 << = 9: 

Il n’est pas sans intérêt de comparer ce résultat avec la raleur 
exacte de cette probabilité fournie par la table de la loi normale, 
soit 0,0027 : on voit donc que la valeur exacte est de 40 (!) fois in- 
férieure à la majoration donnée par l'inégalité de Tchébychev. 


7.2. Propriété de stabilité statistique des caractéristiques 
empiriques : loi des grands nombres et ses conséquences 


On a remarqué que certaines observations (économiques, démo- 
graphiques, physiques, météorologiques ou autres), bien que réali- 
sées dans des conditions relativement homogènes, conduisaient à 
des résultats qui oscillaient fortement, tandis que les moyennes d'un 


*) Cf.: Tchébychev P. Sur les valeurs moyennes. — Mathematitcheski 
sbornik, 1867, II. La même année, un article de Bienaymé a été publié dans 
« Journ. math. pures et appl. », XII, contenant aussi cette inégalité et l'idée 
de sa démonstration. C’est pourquoi cette inégalité est souvent appelée inégalité 
de Bienaymé-Tchébychev. 
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grand nombre d'observations donnaient lieu à une remarquable stabilité. 
À ces moyennes empiriques se rapportent toutes les caractéristiques 
empiriques introduites plus haut : les moments empiriques (initiaux 


et centrés) ms (n) et m°° (n) (cf. $ 5.6), la fonction de répartition 
empirique Fer (x), la densité de probabilité Fi (x) et les fréquences 


relatives p; (re) (cf. $ 5.5) (si tn), fe) et p{" sont interprétées comme 
des moyennes empiriques, on se rappellera seulement qu'il est possible 
de les exprimer par des sommes de variables aléatoires E,. . .., E,, 
où ë; est égale à 0 ou 1 selon que l'observation x; tombe ou non dans 
le domaine des valeurs possibles défini a priori, cf. plus bas (7.4)). 

Ce fait est traduit mathématiquement dans les diverses formes 
de la loi des grands nombres. La formulation de la première version 
particulière de cette loi est rattachée au nom du mathématicien 
français Poisson (Poisson S. D. Recherches sur la probabilité de juge- 
ment en matière criminelle et en matière civile... Paris, Gauthier- 
Villars, 1837). Dans la formulation qui est proposée plus bas, ce 
théorème a été démontré pour la première fois par A. Hintchin 
(cf. Hintchin A. Sur la loi des grands nombres. Comptes rendus de 
l'Académie des Sciences, 189 (1929), 477-479). 


7.2.1. Loi des grands nombres. Soient E,;, E, .., E, une suite 
de variables aléatoires équiréparties. Si la moyenne a = EË,; existe, 


bit... En 


la moyenne arithmétique = 


(on dit encore stochastiquement) vers a lorsque r7 — ©, autrement 
dit, pour tous € >> 0 et Ô >> O aussi petits que l'on veut, on Lpeus 
exhiber un indice 7, à partir duquel (c'est-à-dire pour tout n > ñn) 


on aura 
sé 


La démonstration de cette proposition n'apporte aucune compli- 
cation si l'on exige en plus que les variables aléatoires ë; admettent 
une variance finie, c'est-à-dire VE; = 0° << co. En effet, pour prou- 
ver (7.3) dans ce cas, il suffit d'appliquer l'inégalité de Tchébychev 
(7.2) à la variable aléatoire E (n) = (E1 + ... + E,)/n. Il est 
immédiat que EË (n) = a et VE (n) = 0°/n, don. en vertu de (7.2), 


converge en probabilité 


nm: ter —al<e}>1—6. (7.3) 


PA) aLD< Ko _ 


ne° ” 
En prenant ZT x » ON voit aussitôt que (7.3) est réalisée pour 


tous € et Ô. 
La démonstration de (7.3) dans le cas général est accessible, par 
exemple, dans [54]. 
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A titre de conséquence de la loi des grands nombres, considérons 
l'important résultat suivant qui explique l'effet de stabilité des 
fréquences relatives *). 


7.2.2. Théorème de J. Bernoulli. Supposons qu’on effectue 7 
expériences aléatoires (ou observations d’une variable aléatoire E) 
dont l'issue est la réalisation ou non d’un événement À (par exemple, 
l'événement qui consiste en ce que £ € AX, où AX est un domaine 
mesurable donné des valeurs possibles de la variable aléatoire E). 
Lorsque le nombre d’expériences r7 tend vers l'infini, la fréquence 


relative pu) (A) d'apparition de l'événement À converge stochasti- 
quement vers la probabilité p (A) de cet événement, c’est-à-dire que 
pour tous nombres € >> 0 et Ô > 0 aussi petits que l’on veut, on 
peut exhiber un indice », tel que pour tout n > n,, l'on a 


P {1p® (4) —p(4)|<e} > 1 — 6. (7.3') 


La démonstration de cette proposition résulte de (7.3) si pour 
variables aléatoires on prend des variables E; telles que 


1 si l'événement À se produit à l'issue de la i-ième 


E, = expérience ; (7.4) 
0 sinon. 

De la définition il s'ensuit que toutes ces variables aléatoires 
Es - - -, En suivent la même loi de probabilité, et, en particulièr, 
EË; = 1-p (4) + 0: (1 — p (4)) = p (4); 

Vä = (1 — p (4)}-p (4) + (0 — p (4)} ( — p (4)) = (7.5) 


= p (4) ( — p (4)). 
Il est évident que dans ce cas E (n) = (E, + ... + E,)/n n'est 


autre que la fréquence relative pln) (À) d'apparition de l’événement 
A à l'issue de nr expériences aléatoires, et, de plus, 


EE (n) == Ep( (4) = p (4); 
VE(n) = Vpt") (4)= P(4)(1— p (4)) | 


n 


(7.6) 


En appliquant la loi des grands nombres (7.3) aux variables 
aléatoires (7.4), on obtient, compte tenu de (7.5) et (7.6), la démons- 
tration du théorème de Bernoulli (7.3°). 


7.2.3. Stabilité statistique des caractéristiques empiriques. La 
loi des grands nombres et le théorème de Bernoulli permettent de 


*) Le théorème de Bernoulli est apparu bien avant le théorème fort (7.3), 
lus exactement, en 1713. Mais dans les traités modernes il est plus commode 
de le présenter comme un simple corollaire du théorème (7.3). 
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justifier théoriquement la stabilité des principales caractéristiques 
empiriques d'une loi: la moyenne, la variance, le coefficient de 
dissymétrie, le coefficient d'aplatissement, la fonction de répartition 
et la densité de probabilité, construits sur l'échantillon z,, x.. 

., Zn. Ceci étant, comme toujours, dès qu'il sera question d’ étu- 
dier des caractéristiques empiriques, primo, nous admettrons que 
nous avons affaire à un échantillon composé d'observations indé- 
pendantes, secundo, nous interpréterons l'échantillon au sens hypothé- 
tique, © ’est-à-dire comme un ensemble d'observations indépendantes 
qui auraient pu être réalisées sur la variable aléatoire analysée (cf. 
note du n° 5.6.4). Dans cette interprétation, les observations x, zs,... 
.:.. Zn Sont des variables aléatoires indépendantes équiréparties 
justiciables des relations (7.3) et (7.3). Montrons comment applis 
quer la loi des grands nombres et le théorème de Bernoulli à l’établis- 
sement de la stabilité statistique des principales caractéristiques 
empiriques. 


a. Stabilité des moments initiaux empiriques my (n) et de toutes 
fonctions rationnelles de ces rouen Supposons qu'existent tous les 


moments my — EE* (k = 1, 2, ..., 2k,) d'une variable aléatoire 
E pour k, donné. En appliquant alors la loi des grands nombres aux 
variables aléatoires E, = r*, E, — 2, , En = À, où x; est le 


résultat de la i-ième observation de la Variable aléatoire £, on obtient 
immédiatement la démonstration de la convergence stochastique de 


n 
tous les moments initiaux empiriques mx (n)—( à *)/n vers les 


moments théoriques respectifs my, —= EE* (4 = 1, 2, ..., ko). 
L'application directe de la loi des grands nombres aux observa- 
tions centrées x, — x (n), .- .., x, — zx (n) est impossible, car ces 


observations deviennent dépendantes une fois centrées. 
Mais en appliquant le théorème de E. Slutsky *) qui dit que la 
convergence stochastique (7 —> oo) de variables aléatoires E; (n) 


vers des nombres constants a; (i = 1,2, ..., ko) entraine la conver- 
gence stochastique de toute fonction rationnelle œ (£, (n}), &: (n). . .. 
., &k, (2)) vers sa valeur @ (a, a, . .., ax,) au point (a;, a, . .. 


. .., &r) (si celle-ci existe), on obtient immédiatement la démons- 
tration de la convergence stochastique de tous les moments centrés 
empiriques, du coefficient de dissymétrie et du coefficient d'aplatis- 
sement vers les valeurs théoriques respectives (si elles existent). 
Ceci étant, on tient évidemment compte du fait que les moments 
centrés, le coefficient de dissymétrie et le coefficient d’aplatissement 
SD fonctions rationnelles des moments initiaux (cf. relations 
.22)). 


*) Slutsky . Nu stochastische Asymptoten und Grenzwerte. — Metron, 
5, N° 3 (1925), 
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b. La stabilité de la fonction de répartition, de la densité de proba- 
bilité et des fréquences relatives empiriques, c'est-à-dire leur conver- 
gence (lorsque la taille de l'échantillon sur lequel elles ont été cons- 
truites tend vers l'infini) vers les fonctions théoriques et les proba- 
bilités respectives résulte directement de (7.3) et (7.3”). Prouvons-le 


sur l'exemple de la fonction de répartition empirique Fm) (x). Intro- 
duisons les variables aléatoires (7.4), où l'événement À est défini 
comme {x; << x}, c'est-à-dire que 


1 si z; <z; 
0 sir; >. 


Es = (ai) = 

Il est évident que E,, E+, . . ., E, sont des variables aléatoires 
équiréparties indépendantes et, de plus, EE; = F (x) et VE; = 
= F(x)({—F(x)), où F (x) = P {E << zx} est la fonction de ré- 
partition de la variable aléatoire étudiée £. Il est aisé de voir que 


Fe) (x) = (D E;)/n = E (n)et, par suite, la loi des grands nom- 
=! 


bres nous dit que Fe) (x) — F (x) stochastiquement lorsque n —- co. 


7.3. Rôle particulier de la loi normale : 
théorème limite central 


Les résultats du $ 7.2 s’interprètent grosso modo comme suit: 
lorsqu'on prend la moyenne d’un grand nombre n de variables aléa- 
toires, l’éparpillement incontrôlable, qui est caractéristique aux 
valeurs prises par ces variables, se fait de moins en moins sentir et 
à la limite lorsque nr —+ co, il disparaît complètement ou, comme on 
a encore coutume de dire, la variable aléatoire dégénère en variable non 
aléatoire. Mais cette dispersion aléatoire autour de la moyenne sub- 
siste lorsque le nombre n de variables est fini. Ce qui pose le problè- 
me de son étude (asymptotique lorsque r7 — æ). Un résultat fonda- 
mental (connu sous le nom de « théorème limite central ») a éte pu- 
blié pour la première fois dans l'ouvrage déjà cité de Laplace (1812). 
Ce résultat dit que pour une vaste classe de variables aléatoires in- 
dépendantes E,, . .., E, la loi de probabilité limite (lorsque nr —- oo) 
de leur somme normalisée tend vers la loi normale quelle que soit la 
loi de probabilité des termes de cette somme. Mais cette formulation 
appelle quelques précisions: que veut dire somme « normalisée » 
de variables aléatoires et dans quel sens la loi de probabilité d'une 
variable aléatoire tend-elle vers la loi d’une autre ? Il existe plusieurs 
énoncés rigoureux du théorème limite central qui se distinguent par 
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le degré de généralité et par la forme des contraintes adoptées. Nous 
citons ici l'énoncé de Lindeberg et Lévy *). 


7.3.1. Théorème limite central. Si E,, £,, ..., E, sont des varia- 
bles aléatoires indépendantes équidistribuées de moyenne EË; = a 
et de variance VE; = o*, alors la fonction de répartition de la va- 
riable aléatoire 


CRE 


(&1+...+En)—a (E (n)— a) Vn 
TC ES 
tend pour nr —+ œ vers la fonction de répartition de la loi normale 


pour toute valeur donnée de leurs arguments, c’est-à-dire que 
8 


E*(n)= 


Fan ©) O (x) lorsque nr —+ oo 
pour toute valeur de z, où 
X 2 
1 ie 
O (x) = VE | e dé. 


Ainsi, le théorème limite central donne une description mathéma- 
tique rigoureuse des conditions induisant le mécanisme de la loi 
normale (cf. la discussion non formelle de ces conditions au n° 6.1.5). 
Ce théorème légitime notamment le rôle central tenu par la loi nor- 
male dans la théorie et la pratique des recherches statistiques. Le 
théorème limite central peut être considéré (après la loi des grands 
nombres) comme une précision du comportement stochastique de la 
moyenne arithmétique d une série de variables aléatoires. 

Le théorème limite central peut être développé dans plusieurs 
directions : au cas où les valeurs aléatoires ne sont pas équiréparties 
(formulation de Liapounov); au cas où les composantes E; ne sont 
pas indépendantes ; au cas, enfin, où les variables aléatoires Ë; sont 
multidimensionnelles. 


7.3.2. Théorème limite central multidimensionnel (cf. [16]). 
Soient E1, Ë», - . ., En des variables aléatoires indépendantes équi- 
réparties p-dimensionnelles de vecteur des moyennes M — Eë; = 
— (Eë!", EE, ..., EE) et de matrice des covariances Y =- 
= E {(£: — M) (6; — M)'}. Sous ces conditions, la fonction de 


n 
répartition conjointe du vecteur aléatoire E* (n)—| ÿ (Ei— M) n 
imi 
converge lorsque nr — oo (pour toute valeur de X) vers la fonction de 
*) Lévy Paul. Calcul des probabilités. Paris, 1925; Lindeberg J.W. Eine 


neue Herleitung des Ezxponentialgesetzes in der Wahrscheinlichkeitsrechung. — 
Math. Zeitschr., 15 (1922), 211. 
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répartition conjointe d'une variable aléatoire de vecteur des moyen- 
nes 0 = (0, 0, ..., 0)’ et de matrice des covariances SX. 

Remarque {. Le théorème limite central doit être manipulé 
avec précaution dans les études statistiques. 

Primo, si la forme limite de la loi de probabilité de la somme de 
variables aléatoires est sous certaines conditions toujours normale 
et ne dépend pas de la loi des termes de cette somme, la vitesse de 
convergence de la loi de cette somme vers la loi normale dépend, elle, 
essentiellement de la loi des termes de cette somme. Si, par exemple, 
des variables aléatoires sont équiréparties, la somme de 6 à 10 d'entre 
elles suit approximativement une loi normale, alors qu'il en faudrait 
plus de 100 si elles suivaient une loi du #*. 

Secundo, le théorème limite central n'est généralement pas re- 
commandé pour approcher les probabilités aux ailes des lois, c’est-à- 
dire dans l'estimation des probabilités d'événements de la forme 


{E* (n) <'rnm} et LE* (n)> Znax}: OÙ Toi et Zmas Sont des va- 
leurs possibles voisines respectivement des bornes gauche et droite 
de l'intervalle de variation de la variable aléatoire E* (n). Vu que 
dans ce cas les valeurs des probabilités P {E* (n) < Znm}'= 
— Fanny (Znun) et PEER) > za} = 1 — Fan) (Zmax) Sont 
petites, la petitesse des différences Fa (Znin) — D (nn) et 


Ce. 4 


Fe (Zu) — D (rmax) (qui résulte du théorème limite central) 
n’entraîne aucunement celle des erreurs relatives d'approximation 


Fr) (Zmin) : rien, (Zmax) 
D (Tmin) 1—© (zmax) 


qui sont généralement excessivement grandes. Supposons, par exem- 


ple, que £* (n) est le revenu moyen normalisé par personne dans une 
famille (ë,. £:. . . . sont respectivement le salaire des membres actifs 
de la famille et les autres composantes du revenu familial) et étudions 
le taux g des familles ayant un revenu très élevé, plus exactement, 


un revenu supérieur à un niveau assez élevé x,,- Une analyse mon- 
tre que la valeur exacte de q est q = 1 — ES (Zinax) = 0,03, 
alors que l'approximation normale respective donne q = 1 — 


— D (Tax) — (0,003. La différence qg — q est petite en soi (ainsi 
qu'il ressort du théorème limite central), mais l'erreur relative de 
l'approximation normale est de 1000 % ! Cet avertissement vaut 
surtout quand on essaye d'appliquer les approximations normales 
aux calculs des dépendances de type « résistance limite (ou capacité 
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d'accueil) d’un système — probabilité de destruction (ou de refus 
d'une demande) ». 

Remarque 2. Le théorème limite central permet d'étudier les 
relations asymptotiques existant entre les divers modèles de lois 
de probabilité (cf. chapitre 6), d'une part, et la loi normale, de l’autre. 
En se prévalant du théorème limite central, on peut, en particulier, 
expliquer les faits suivants qui sont d'une grande utilité pratique. 

1. La loi d’une variable aléatoire binomiale E (p, n) de paramè- 
tres (p. n) est asymptotiquement normale *) (par rapport à n —> co) 
de paramètres EE (p, r) = npet VE (p,n) = np (1 — p). Ce résultat 
est connu sous le nom de théorème de Moivre-Laplace (la démonstra- 
tion a été donnée par Moivre en 1733, alors que le théorème limite 
central n’était pas encore connu) et découle directement du théorème 
limite central appliqué à la variable aléatoire (7.4) compte tenu de 
(7.5). 

2. La loi d'une variable aléatoire poissonnienne E (À) est asymp- 
totiquement normale (par rapport à À —— oo) de paramètres EE (À) = 
= à et VE (à) = À. 

3. La loi d’une variable aléatoire hypergéométrique E (VW, M, n) 
de paramètres (V, M, n) est asymptotiquement normale (par rapport 


à No, M— oo, FF P>0 et n—>0c) de paramètres 


EL (N, M.n)=npet VE(N, M,n) = np (1 — p). 
4. La fonction de répartition d’une variable aléatoire polynomiale 


normalisée k-dimensionnelle de paramètres (p,, Pa, - .., Pr; nl) 
= ( SO) — np: EU) —npr ] 
Vas Vnre 


tend, lorsque r —+ , vers la fonction de répartition d’une loi nor- 
male impropre (dégénérée) k-dimensionnelle dont les valeurs moyen- 
nes sont nulles et la matrice des covariances 


V Ps 
Z=I,— | (VP1 V Pa 1 V px) 
V P» 
possède un rang égal à À— 1(cf., parexemple, [16], « Application » **). 


*) On dit qu’une variable aléatoire E (n) dépendant d’un paramètre n 
est asymptotiquement normale (par rapport à TE existe des variables non aléa- 
toires de normalisation À (n) et B (n), telles que la fonction de répartition 
de la variable aléatoire n (n) = À (n)-E (n) + B (n) tend, lorsque n — ©, 
vers la fonction de répartition de la loi normale réduite pour toute valeur don- 
née de leur argument z. 

| Ici et dans la suite le symbole I, désignera la matrice unité de dimen- 
sion k. 
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5. La loi d’une variable aléatoire 4° (m) est asymptotiquement 


* 


normale (par rapport à m—> co) de paramètres Ey° (m) = m et 
Vy (nm) = 2m. 

6. La loi d'une variable aléatoire { (m) est asymptotiquement 
normale (par rapport à m —+ co) de paramètres Et (m) = Oet Vt(m) = 


7.4. Loi de probabilité de variables aléatoires qui sont fonctions 
de variables aléatoires connues 


Dans les recherches statistiques théoriques et pratiques, il est 
très important de savoir calculer la loi de probabilité de fonctions 
dépendant de variables aléatoires dont on connaît la répartition. 
Ceci constitue l’essence de la théorie de l'estimation statistique et 
de la vérification des hypothèses statistiques (cf. chap. 8), puisque 
l'estimation statistique et la statistique critique, utilisées respective- 
ment pour l'estimation des valeurs inconnues des paramètres el pour 
la construction de tests d’hypothèéses statistiques. sont des fonctions 
des observations de la variable aléatoire & étudiée. Pour en tirer le 
meilleur parti et connaître leurs propriétés statistiques, nous devons 
être en mesure de reconstituer leur loi de probabilité d’après celle 
de la variable aléatoire £ (donc, d’après ses observations). On décrit 
plus bas les principales règles qui nous guideront dans la résolution 
de ce problème. 

1. Supposons qu’une variable aléatoire n est une fonction continue 
monotone strictement croissante d'une variable aléatoire Ë donnée 
dont la fonction de répartition F4 (x) est partout différentiable, 
c’est-à-dire que n = g (ë). À toute valeur possible x de la variable 
aléatoire £ sera associée une valeur possible y = g (x) de n. 

La fonction n = £g (£) étant continue et monotone, on peut dé- 
terminer de façon unique & en fonction de n à l’aide de la transfor- 
mation réciproque g”! de g, soit £ = g”! (n). On a une relation ana- 
logue entre les valeurs possibles de ces variables, soit x = g”? (y). 

Essayons d'exprimer la fonction de répartition F, (y) en termes 
de fonctions F: (x), g et g”!: 


Fa Yy)=Pn<y}=P {87 (n) < g7(y)} = 
= P{E<g"(y)} = Fig (y)). (7.7) 


La dérivation des deux membres de (7.7) par rapport à y nous 
donne 


fa) = fe (81 (y) (7.8) 


« 


Les mêmes raisonnements appliqués à une fonction monotone 
strictement décroissante g (x) nous conduisent à la modification sui- 


13—0273 
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vante de la formule (7.8): 
dgr1 = 6; 
fa u)= fi (gt (y). (—<E). (7.8') 
On peut regrouper les formules (7.8) et (7.8) en une seule valable 
pour toute application bijective g: 


fa = fee) |. (7.8°) 


Exemple 7.1. Calculer la densité de De d’une variable 
aléatoire n = eë sachant que Ë£ est une variable aléatoire normale 


de paramètres (a, 0“). 


Dans cet exemple g (x) = e*, g-! (y) = In y, donc 
dg”1 (y) Le (In w) _ 1 
dy dy y° 


En portant ceci dans (7.8”), on trouve 


-(Iny-a} n 
e 20: = 
y ? 


== 


c'est-à-dire la densité de la loi lognormale (cf. n° 6.1.6). 

Exemple 7.2. Calculer la densité de probabilité de la variable 
aléatoire n — a + bE sachant la densité /; (x) de la variable aléa- 
toire E. 

Ici gx) = a + bzx, g-! (y) = (y — a)/b et (dg”! (y}/dy) = 1/b. 
Les relations (7.7) et (7.8”) nous donnent 


En =F: (45) ; 


ho=f (+). 


Cette règle de calcul des fonctions de répartition et des densités 
de probabilité permet, en particulier, de se servir des tables de la 
loi normale réduite pour déterminer les valeurs prises par la fonction 
de répartition et la densité de probabilité d'une variable aléatoire 
normale Ë (a, 0°) de paramètres arbitraires (a, 6°). On remarquera que 
ë figure la variable aléatoire normale réduite & (0, 1) et 1. la va- 
riable aléatoire normale Ë (a, 0°), c’est-à-dire que 


ë (a, O*) a@ + o-È (0, 1). (7.10) 
2. Si l'application n = g (£) n'est pas bijective, l'établissement 


de formules générales ne présente aucun intérêt. Les problèmes doivent 
être examinés alors cas par cas. Considérons, par exemple, le cas 


—"+": 
Fay =PN<y}=P{|E <Vy}=P{-Vy<E< 
<V y} = Fi Vy) — Fi (—V y). 


(7.9) 
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Donc, 


hO=R Ve +R VD = 
= 7 VD +R Vo) 


L'application de cette formule à une variable aléatoire normale 
réduite £ nous donne 
1 \1/2 
(3) 


V 
1 1 2 — yla-te-av, 


hU=r r(1) 


densité qui est un cas particulier de celle de la loi gamma de para- 


mètres a =b=+ (cf. 6.2.5). 


3. Généralisons la formule (7.8"). Soit £ = (EU), . .., E®)) une 
variable aléatoire p-dimensionnelle dont on connaît la fonction de 
répartition F3; (X) et la densité de probabilité f: (X), et supposons 
qu'une autre variable aléatoire p-dimensionnelle n — (M? - 

, nf) est une fonction vectorielle continue donnée g (Ë), cc 'est-à- 
dire que 
nÜ=g, (EM, ..., EM), 


nt) =£h (E), Nr EP). 


On admet que l'application n = g (£) est bijective, c’est-à-dire 
qu'existe l'application réciproque g-! qui permet de remonter de 
n à Ë: 

EU) = à (nt), er n@)) : 


E(P) — £> (nt), ae nt). 


Respectivement, entre les « valeurs » possibles multidimension- 
nelles À = (2x), ..., x@)) et Y = (y), ..., yP)) des variables 
aléatoires E et n on a les relations vectorielles 


Y =g(X)et À = g (F7). 


La densité de probabilité conjointe des variables aléatoires 
n = (1%, ..., n@)) est alors égale à 


fn QE, = fe (gr (), 83 (F7), .., 87 (Y))-1J (PI, (7.11) 


13% 
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où | J (Y) |! est la valeur absolue du jacobien: 


gs (7)  ôg1! (7) 0gr' (Y) 

y?) ôy(?) °°° ay{P) 
0g;' (Y)  dg31 (7) dgs! (Y) 

J(Y)=]| 0 ôy(2) ‘"°  AytP) 
0 (7) 087 (7) 08, (») 


Op) Op  *"*  OytP) 


4. Etablissons la loi de la somme de deux variables aléatoires in- 
dépendantes (formule de composition). Soient £, et £, des variables 
aléatoires indépendantes de den- 
sités de probabilité respectives 
Je, (x) et fe, (y). On demande la 
composition de ces densités, c’est-à- 
dire la densité de probabilité de 
la variable aléatoire = E, + 
+ £&,. Nous devons en fait consi- 
dérer la densité de probabilité con- 

TNT x jointe f:, # (x, y) et, pour déter- 
LEZ, CLLTL miner la tonction de répartition de 
HAT CLÉ | n, trouver dans le plan zOy le do- 
pee Tout point du domaine maine de valeurs possibles de (E, 

z du plan x0y correspond à l'évé- E,) dant à Tévé t 

nement {E, + E. < 2} 2) correspondant à l'événement 
{n <z}. Ce domaine est hachuré 
et désigné par À, sur la figure 7.1. On obtient 


Fa()=P{n<z}=P{h+E<z}=P{(E &)€4}= 
F | | fs, 8) (Zs y) dr dy = | | fa (x) fs, (y) dx dy = 
A 


= MAC dr dy= (A. (2) (rw dy) dz. (7.12) 


On s’est servi de l'identité fa, es (z, y) = fu (x) fa, (y) (qui est 
valable, car &E, et Ë, sont indépendantes). 

" ‘La dérivation par rapport à z des deux membres de (7.21) nous 
donne 


fh@)= | ff, (2 dr. (7.13) 
La formule (7.13) s'appelle formule de composition de deux ré- 
partitions ou formule de convolution. Le produit de convolution des 
lois de probabilité est souvent désigné par 


se tt În = fuite 
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La formule (7.13) nous permet d’établir la propriété d’e auto- 
reproduction » des lois de Gauss et de Cauchy mentionnée aux n° 
6.1.5 et 6.1.10, savoir que la somme de variables aléatoires normales 
est normale et la somme de variables aléatoires de Cauchy équiré- 
parties est une variable de Cauchy, ainsi que les formules de la den- 
sité de probabilité des sommes de variables aléatoires uniformes 
citées au n° 6.1.7. 


Conclusions 


1. On distinguera trois types de résultats fondamentaux en théo- 
rie des probabilités : 

les résultats préasymptotiques qui permettent d’analyser les prin- 
cipales lois régissant la variable aléatoire à travers ses caractéris- 
tiques numériques fondamentales — moyenne, variance, etc.— 
sans en appeler à la loi de probabilité; 

les résultats asymptotiques grâce auxquels il est possible d’ana- 
lyser les lois fondamentales de la somme d’un grand nombre de va- 
riables aléatoires (en l'occurrence, d'établir leur stabilité asymptoti- 
que, c’est-à-dire leur convergence vers une valeur constante lorsque 
le nombre des termes de cette somme croît, ou de décrire la forme 
asymptotique de la loi de probabilité de ces sommes) sans connaître 
exactement la loi de probabilité des termes de cette somme; 

les résultats liés aux transformations des variables aléatoires qui 
nous aident à trouver la loi de probabilité de fonctions dépendant 
de variables aléatoires dont on connaît la répartition conjointe. 

2. Les résultats du premier type sont représentés dans cet ouvrage 
par l'inégalité de Tchébychev qui permet d'estimer la probabilité 
que l'écart entre la valeur prise par la variable aléatoire E et sa 
moyenne a = EE soil supérieur à une quantité donnée À, c'est-à-dire 
P 1 — a |> A}, sans connaître la loi de probabilité de E (cf. 
(7.2)). | 

3. La loi des grands nombres et ses conséquences se rapportent 
au premier niveau (le moins profond) des résultats asymptotiques 
et permettent d'établir la convergence stochastique de sommes nor- 
malisées d’un grand nombre de variables aléatoires vers des valeurs 
constantes — lorsque le nombre de termes croît — pratiquement 
indépendamment de la loi de probabilité de ces variables. De ces 
résultats on déduit directement, en particulier, l’importante pro- 
priété de stabilité statistique des principales caractéristiques nu- 
mériques empiriques de la variable aléatoire étudiée: moyenne, 
variance, fréquences relatives, etc. (cf. (7.3), (7.3')). 

4. Le théorème limite central fait partie du niveau suivant (plus 
profond) des résultats asymptotiques. Il affirme, en particulier, 
que la loi de probabilité de la somme normalisée d’un grand nombre 
de variables aléatoires (lorsque ce nombre croît) tend vers la loi 
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normale pratiquement indépendamment de la répartition de ces 
variables (cf. n° 7.3.1). 

Mais le théorème limite central doit être manipulé avec pré- 
caution dans la pratique: premièrement, on peut souvent choisir 
des approximations relativement simples (et plus précises que Îles 
normales !) de la loi de probabilité d’une somme d’un nombre 
fini peu élevé de variables aléatoires; deuxièmement, le théorème 
limite central fonctionne mal aux ailes des lois, c’est-à-dire lorsqu'on 
estime les probabilités des grands écarts de la somme des variables 
aléatoires par rapport à sa moyenne. 

5. Le principal résultat de la théorie des transformations des va- 
riables aléatoires est la règle (7.8”) (ou (7.11) dans le cas multidimen- 
sionnel) qui permet de calculer la loi de probabilité (la densité de 
probabilité ou le polygone de fréquence) d’une variable aléatoire 
qui est une fonction donnée d’un ensemble de variables aléatoires 
dont on connaît la loi de probabilité conjointe. 


TROISIÈME PARTIE 


ÉLÉMENTS DE STATISTIQUE MATHÉMATIQUE 


CHAPITRE 8 


ESTIMATION STATISTIQUE DES PARAMÈTRES 


L'un des principaux objectifs que se fixe le cnercheur en abor- 
dant le traitement statistique des données initiales est de décrire avec 
laconisme les propriétés de la population (ou du phénomène) étudiée, 
c’est-à-dire de représenter l’ensemble des données à traiter sous la 
forme d’un dossier de caractéristiques construites sur la base de ces 
données initiales. Ceci étant, il est souhaitable que la perte d'infor- 
mation soit minimale. Les caractéristiques mentionnées sont des 
fonctions des observations initiales X,, X,, ..., X, et s'appellent 
statistiques (ce terme est donc employé dans trois acceptions: disci- 
pline scientifique, information initiale et fonction des observations). 
Au chapitre précédent nous avons eu affaire aux statistiques: les 
caractéristiques empiriques de la population générale, c’est-à-dire 
les moyennes, la variance, les coefficients de dissymétrie et d’apla- 
tissement, la covariance et la corrélation et, enfin, la fonction de ré- 
partition et la densité de probabilité empiriques (cf. formules (5.6), 
(5.8), (5.19), (5.20’), (5.21), (5.23), (5.34’), (5.35’), (5.36’), (5.37'), 
(5.38°)). 

Pour décrire laconiquement l'information contenue dans le 
fichier, nous disposons de tout un arsenal de méthodes appliquées de 
statistique mathématique: choix et justification du modèle mathé- 
matique du mécanisme du phénomène étudié (cf. chap. 3); étude 
des propriétés du système analysé ou du mécanisme de fonction- 
nement par simulation sur ordinateur ($$ 3.2 et 6.3); visualisation 
des données initiales afin d’énoncer les hypothèses de travail sur 
le mécanisme du phénomène étudié (cf. $ 10.5) et autres méthodes 
de statistique descriptive (étude des lois empiriques, manipulation 
de variables de types divers, etc., cf. $$ 10.2, 10.3); analyse de la 
nature des données traitées (chap. 11); description des relations 
statistiques liant les variables analysées, etc. ch 00 méthodes 
relèvent d'une manière ou d’une autre de deux domain 


de la statistique mathématique : 1) de la théorie de MO re Hi i- 
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que des valeurs inconnues des paramètres participant à la description 
du modèle analysé ; 2) de la théorie des tests des hypothèses statistiques 
concernant les paramètres ou la nature du modèle analytique. 

Le présent chapitre est consacré à l'exposé des principaux élé- 
ments du premier domaine mentionné. 


8.1. Notions préliminaires d’estimation statistique des paramètres , 
8.1.1. Position du problème. Soit donné un échantillon 
, VRP ET. CE (8.1) 


et supposons que les caractères de la population générale peuvent 
être décrits à l’aide des équations (le modèle mathématique) 


M (X, ©) = 0, (8.2) 


où. As = (a, TP, es x) est la i-ième observation de l’échan- 
tillon (8.1), À la valeur courante (c’est-à-dire substituée par nous) 
de la variable aléatoire p-dimensionnelle étudiée, 6 = (641, ... 
..., 84%)) un paramètre k-dimensionnel participant dans l'écriture 
du modèle (8.2) et dont les valeurs sont inconnues avant le tirage 
de l'échantillon (8.1). 

Le problème d'estimation statistique des parametres inconnus 
© au vu de l'échantillon (8.1) consiste grosso modo à construire une 


fonction vectorielle k-dimensionnelle (XL... An) = (Ot1) D, CPR 


ss Xn)s + +. OM) (X,, . .., Xh)) des observations (8.1) qui 
dans un certain sens donne les meilleures valeurs approchées des véri- 
tables valeurs (inconnues) des paramètres © = (801, ..., 04))’. 
Pour l'instant, on ne précise pas dans quel sens les valeurs appro- 


chées bon), ue: ÊCR) respectivement des paramètres 6H, ..., O4) 
sont les meilleures. 

Le modèle (8.2) peut être un modèle de loi de probabilité (cf. 
chap. 6), un modele de dépendances statistiques entre les variables 
analysées (cf. chap. 3), etc. 

Exemple 8.1. Soit à étudier la loi de probabilité d’une variable 
aléatoire continue E à une dimension dont la densité de probabilité 
{ (x) est inconnue et supposons que l'analyse préliminaire des don- 
nées initiales (8.1) (effectuée à l’aide des méthodes des chapitres 
10 et 11) nous amène à conclure que cette loi peut être décrite par 
le modèle normal (cf. n° 6.1.5). Dans ce cas, 

9 = (84), 002), où 0H —a—EE et 02 = 02— VE; 
RÉ 
M (x; 6) = jf} (2) V' 20) 
et l’on peut prouver (cf., par exemple, [114]) que toute l'information 
sur les paramètres 0) et 6% (et, donc, sur le modèle) est concentrée 
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dans deux statistiques : x (n) el s° (n), où 


z(m=+X x; (8.3) 
11 
2 (n)=< D (ri —7 (n)}. (8.4) 


LE | 


On a montre plus haut (cf. $ 7.2) qu’on avait toutes les raisons 
d'utiliser les statistiques (8.3) et (8.4) comme approximations 
(estimations) des paramètres a et o*, puisque ces estimations con- 
vergent stochastiquement lorsque nr — œ vers les valeurs véritables 
de a et o°. Mais le problème de savoir si ces estimations sont les 
meilleures reste pour l'instant ouvert. Avant de le discuter, nous 
aurons besoin d'introduire quelques notions. 


8.1.2. Statistiques, estimations statistiques et leurs principales 
propriétés. On appelle statistique toute fonction y (1, ..., X,) 
des observations X,, ..., X, de la variable aléatoire multidimen- 
sionnelle £. Nous avons déjà eu affaire au chapitre 5 aux statistiques : 
la moyenne empirique (5.20"); la matrice des covariances empirique: 


(5.36"); les coefficients empiriques de dissymétrie B, (n) et d'’a- 
platissement B, (nr) (formules (5.33")et (5.34’)), la fonction de réparti- 
tion empirique #) (X) (formule (5.12) et la densité de probabilité: 
fe) (X) (formule (5.23)). 


La statistique © qui sert à approcher le paramètre inconnu © 
s'appelle estimation statistique. Ainsi, par exemple, les statistiques. 


X (n),S (n), b. (n) et B. (n) peuvent ètre traitées comme les estima- 
tions statistiques respectivement des paramètres A] = EE, Z — 
— EI(E — M) (E — M)1, B, et B., puisque, en vertu du $ 7.2, 
toutes ces statistiques convergent stochastiquement vers les valeurs: 
exactes des paramètres respectifs lorsque 7 — oo. 

Attirons l'attention du lecteur sur le fait qu’en parlant des sta- 
tistiques et des estimations statistiques nous nous plaçons dans 
l'interprétation hypothétique de l'échantillon (8.1) (cf. note de la 
page 114), c'est-à-dire que X,, . .., À, sont les n valeurs de £ que 
nous aurions pu obtenir en réalisant n fois l’expérience aléatoire (ou 
n observations indépendantes) dans le système de conditions donné. 
Donc, les statistiques et les estimations statistiques sont toutes des va- 
riables aléatoires: au passage d'un échantillon à un autre (même pa- 
rent) les valeurs concrètes de l’estimation statistique, calculées à 
l'aide de la formule (8.3) (c'est-à-dire les valeurs obtenues en por- 
tant dans (8.3) des valeurs concrètes de l'argument), feront l'objet 
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d’un éparpillement imprévisible. En fait, les valeurs de l'estimation 
statistique calculées sur des échantillons différents seront dispersées 
aléatoirement mais devront (si notre estimation est « bonne ») se 
rassembler autour de la véritable valeur du paramètre estimé. 

Le problème est donc de formuler les critères que doivent remplir 
ces estimations pour être sûres dans un certain sens. Plus exactement 
ces estimations doivent être convergentes, sans biais et efficaces. 


8.1.3. Estimation convergente. On dit qu'une estimation ô — 


_ ô (X4, ..., Àn) d'un paramètre inconnu 6 est convergente 
si elle tend stochastiquement vers la valeur à estimer 0 lorsque 


n— oo, c'est-à-dire si P {| Ô —01>>E}— 0 lorsque r —+ o pour 
tout £ >> 0 aussi petit que l’on veut (si le paramètre © est vectoriel, 


la convergence de l'estimation vectorielle 8 implique celle de toutes 


les composantes de 6). h 
Toutes les estimations mentionnées plus haut (X (n), S*°(n), 


Fm) (X). fe) (X), etc.) sont, comme on l’a montré dans le $ 7.2, 
des estimations convergentes des paramètres respectifs. 

D'une part, la convergence est indispensable pour que cette 
estimation ait un sens pralique (puisque dans le cas contraire l’ac- 
croissement du volume de l'information initiale ne nous « rappro- 
chera pas de la vérité »). Cette propriété doit donc être vérifiée d'em- 
blée. 

De l’autre, la convergence est une propriété asymptotique (par 
rapport au nombre d'observations #), c'est-à-dire qu'elle ne peut 
jouer que pour des échantillons de grande taille qui ne sont pas en- 
visagés en pratique. Par ailleurs, dans la plupart des cas, on peut 
proposer plusieurs estimations convergentes d'un même paramètre. 


Par exemple, les estimations 6, —zx(n) et 6, = (tin (2) + 
+ Znax (2))/2 sont des estimations convergentes de la moyenne 
@ — EE (si elle existe) d’une variable aléatoire symétrique £ (x (n) 
est la moyenne empirique calculée à l’aide de la formule (8.3), 
Tmin (2) et Tma- (2) respectivement les valeurs minimale et maximale 
des observations de Ë). 

Tout ceci montre que la convergence ne suffit pas à elle seule à 
caractériser entièrement la fiabilité de l'estimation. Il faut envisa- 
ger deux autres propriétés. 


8.1.4. Estimation sans biais. On dit qu'une estimation 0=0 (X,,.. 
., ÀXhn) est sans biais si pour tout r sa moyenne ED est égale à la 


valeur théorique du paramètre inconnu 8, c'est-à-dire Eô — 0 (si 
ie paramètre © est vectoriel, la propriété d’une estimation vecto- 
rielle 6 d'’êtresans biais implique celle de toutes les composantes de 6). 
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Voyons, par exemple, si les estimations (8.3) et (S.4) sont des 
estimations sans biais des paramètres a — EE et o* — VE de la loi 
normale (cf. exemple 8.1): 


ñn 


Ez(n)=E(< 5 z)=+DEu-+S a=a; 


im is 1 i= 


Est (n)=<E | D (—a)—(@—0)}|— 
i= 1 


LES (m—a?—2 (0) D'(m—a)+ 


"4=1 i=1 


+Y G— a} | —_ | > (x, —a}?—9 (x— a) (nxz — na) +- 
i= 1 


i= 1 


+n &—ay | = TE [ S (tr —a}—n(r— a) | me 


i=1 


= + D E (x; —a}—n.E(x— a} | = 


= + (non) — 02 1 -+) 


(dans le calcul de Es* (7) on s’est servi du fait que si les observations 
Ti» Lay + + +» Tn SONt indépendantes, équiréparties el de variance 
6“, alors 


vaste) 1 Vz, — no? =; 


n? 
ii 


cf. propriétés b) et d) de la variance au n° 5.6.3). 

On constate que x (7) est une estimation sans biais du paramètre 
a, alors que l’estimation s° (7) du paramètre 0° admet un biais né- 
gatif égal à o°/n. 

Contrairement à la convergence l’absence de biais caractérise 
les propriétés « préasymptotiques » de l'estimation, c'est-à-dire est 
une caractéristique de ses bonnes propriétés pour toute taille finie 
de l'échantillon. L'absence de biais élimine l'erreur systématique 
d’estimation qui, d’une façon générale, dépend de la taille r de 
l'échantillon et, en cas de convergence de l'estimation, tend en 
principe vers 0 lorsque z —+ oo. Si l’on arrive à déterminer la valeur 
du biais, on peut facilement l’éliminer. Ainsi, dans notre exemple, 
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pour éliminer le biais, il suffit de passer à l'estimation 


s? (n) = —— s2 (n) \ 


qui de toute évidence est sans biais. De ce qui précède, il suit que 
l'absence de biais (sous réserve que la convergence ait lieu) est par- 
ticulièrement importante lorsque le nombre d'observations est 
petit. 


8.1.5. Estimation efficace. Soient données deux estimations 


vectorielles convergentes et sans biais ô, (X,1,-.., À,)et à, D, CE 
y Àn) d’un paramètre vectoriel inconnu ©. Pour interpréter 


( 


! 


Fig. 8.1. Deux procédés d'estimation sans biais convergente d'un paramètre 
vectoriel © = (8(1), 8(2)) d'efficacité différente : sur a l'estimation est plus effi- 
cace que sur b 


géométriquement cet exemple, on admettra que le paramètre vecto- 
riel est de dimension 2. Pour analyser les propriétés de deux estima- 
tions en concurrence, on réalisera ici 20 estimations du pa ramètre 
inconnu © = (8), 62)" à l’aide des deux méthodes préconisées. 


A cet effet, calculons les valeurs 6: et 6,; (= 1, 2, : :., 20) en 


portant dans les fonctions ô, et 6, le i-ième échantillon de taille ne, 
autrement dit, prélevons le premier échantillon X;y,, X3°, - .. 


... XÂin et portons ces observations dans les fonctions Ô, et 6, 


pour obtenir le premier couple d’estimations 6,, et 6.,; tirons, en- 
suite, un deuxième échantillon X:,,, ..., X,, et portons ces ob- 


servations dans les mêmes fonctions 6, et ©, pour obtenir le deuxième 


couple d'’estimations @ et Ba», et ainsi de suite. Sur l’axe horizon- 
tal de la figure 8.1 sont portées la première composante 61 du pa- 
ramètre inconnu et les premières composantes de ses deux estimations 


CH. 8. ESTIMATION STATISTIQUE DES PARAMÊTRES 205 


(B(1) sur la figure 8.1, a et Ô © sur la figure 8.4, b) et sur l'axe vertical, 
la deuxième composante 6 du paramètre inconnu et les deuxièmes 
composantes de ses deux estimations (82 sur la figure 8.1, a et 


8(? sur la figure 8.1, b). Donc, la position relative du point (8, 


8?) et de la croix (85, 8() sur la figure 8.1, a donne une idée de 


la proximité de l'estimation 6,; obtenue par la première méthode 
à l’aide du i-ième échantillon, par rapport à la valeur théorique, du 
paramètre inconnu © (la figure 8.1, b représente la même situation 
pour la deuxième méthode d'estimation). La plus forle concentra- 
tion des estimations acquises par la première méthode autour de la 
valeur théorique témoigne visiblement de la plus grande efficacité 


de l'estimation ô, par rapport à 6. C'est précisément cette mesure 


de la dispersion des valeurs estimées 8 autour de la valeur théorique 
de © dans l’espace k-dimensionnel respectif qui est posée à la base 
de la définition de l'efficacité d’une estimation. On dit qu'une esti- 


mation Ô d'un paramètre © est efficace si de toutes les estimations de 
6 elle est celle dont la mesure de la dispersion aléatoire par rapport 
à la valeur théorique de @ est la plus petite. L'efficacité est une pro- 
priété décisive qui définit la qualité d'une estimation et qui, géné- 
ralement, n'implique pas l'absence de biais. 

Reste à préciser comment varie le degré de dispersion aléatoire 


des valeurs de l'estimation 6 autour de la valeur théorique du para- 
mètre ©. 


Lorsque 6 est un scalaire (c'est-à-dire que la dimension k de l’esti- 
mation est égale à 1), pour mesurer cette dispersion, on prend la 


moyenne du carré de l'écart, c’est-à-dire la quantité 0° (9) = 
— E (6 — 6} qui, pour les estimations sans biais, coïncide avec 


leur dispersion, puisque dans ce cas VO =E (8 — EB) = E (Ô — 
— 0). 


Lorsque Ô est un vecteur (c'est-à-dire que k> 2), pour mesurer 
l'écart par rapport à la valeur théorique du paramètre vectoriel 6, 
on prend généralement la matrice des covariances de l'estimation 


Ô, c'est-à-dire une matrice symétrique définie positive de dimension 
k x k que l’on désigne par > (8). Une estimation ô, du paramètre 
6 est dite moins efficace qu'une estimation Ô, si existent les matrices 
des covariances X (à.) et À (ô,) et si la matrice AS = E (8,) — 


— 2 (È;) est semi-définie positive. 
Si les estimations sont vectorielles, il existe des cas où, malgré 
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l'existence des matrices Z (6) et > (8), il est impossible de dire 
laquelle est plus efficace au sens indiqué ci-dessus. Cependant, on peut 
lever celte indétermination si pour mesurer l’écart d’une estimatiom 


vectorielle sans biais Ô par rapport à la valeur théorique du para- 
mètre © on considère non pas la matrice des covariances 2 (8) mais 
son déterminant det Z (6) (la dispersion généralisée, cf. n° 5.6.7) 


ou sa trace Tr È (È). 


8.2. Fonction de vraisemblance. Quantité d’information 
contenue dans # observations indépendantes par 
rapport à la valeur inconnue du paramètre 


Supposons que (8.1) est un échantillon constitué de z observa- 
tions indépendantes p-dimensionnelles. La loi de probabilité de la 
variable aléatoire p-dimensionnelle Ë est décrite par une fonction 
f (X, 6) dépendant d’un paramètre inconnu @ : par f (X, 6) on com- 
prend la probabilité P {E = X} si & est discrète et la valeur de la 
densité de probabilité en X si & est continue. Si l’on envisage l’échan- 
tillon (8.1) au sens hypothétique, chaque échantillon concret (X, 

2, -:-, Àn) est représenté par un point de l’espace à (p X n) 
dimensions des échantillons X,, X,, ..., X, et il y a lieu de parler 
de la loi conjointe du vecteur X = (X,, ..., X,). Vu que dans 
l'optique hypothétique, X,, X2, . .., X, sont des variables aléa- 
toires indépendantes équiréparties, pour tout ensemble donné de va- 
leurs À, ..., X?, leur densité conjointe sera 


L'(XT, X2, ..., X2: 9) = f (X1; 0)-f (X3; 0)- . .. -f (XS; 0). 
(8.5) 


Donc, la fonction L (X*, 9) définie par (8.5) nous donne la pro- 
babilité d'obtenir par un tirage d’un échantillon de taille n les 
observations X?, ..., À? (ou une quantité proportionnelle à la 
probabilité d'obtenir des valeurs empiriques situées au voisinage 
immédiat du point X* dans le cas continu). Donc, plus la valeur de 
L (X*, 9) est élevée et plus est vraisemblable le système d'’observa- 
tions X* = (Xf, ..., À?) pour une valeur donnée du paramètre 
6. D'où le nom de fonction de vraisemblance donné à la fonction L. 

Selon la position du problème et les objectifs de la recherche, 
la fonction de vraisemblance peut être traitée soit comme une fonc- 
tion du paramètre © (pour des observations fixes données X%, ... 
..., À3), soit comme une fonction des valeurs courantes des observa- 
tions X,, -.., À, (pour une valeur fixe donnée du paramètre 6), 
soil enfin comme une fonction de X et 6. 
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Il serait intéressant d'étudier les variations de la probabilité 
en fonction de celles du paramètre ©. Il est évident que plus cette 
dépendance est forte et plus importante est l'information comprise 
dans X sur 6. Signalons que par information comprise dans la va- 
riable aléatoire X sur le paramètre inconnu ®, on comprend le degré 
de réduction de l’indétermination relative à la valeur inconnue de 
@ après les observations effectuées sur la variable X. Si la valeur 
observée X* de la variable aléatoire X permet de remonter presque 
sûrement (c'est-à-dire avec la probabilité 1) à la valeur exacte du 
paramètre ©, c'est que X (ou sa valeur observée X*) renferme le 
maximum d'information sur le paramètre O. Réciproquement, si 
la répartition (8.5) de la variable aléatoire X est la même pour toutes 
les valeurs du paramètre O, nous n'avons alors aucune raison de 
tirer une quelconque conclusion sur 6 d’après les résultats des ob- 
servations de cette variable aléatoire (ceci exprime que l'observation 
contient une information nulle sur la valeur du paramètre inconnu). 
La sensibilité de la variable aléatoire X au paramètre 6 peut être 
mesurée par la grandeur de la variation de la répartition de X lorsque 
O varie. La caractéristique la plus souvent utilisée et qui sert à 
mesurer la distance entre les répartitions (8.5) pour deux valeurs 
différentes de © est la quantité d'information de Fisher (contenue 
dans les observations X = (X,, X2, ..., X,)) définie comme suit 


1(8; X)—E| { nE \|- | (in LIX, 6) L(X; 6) aX (8.6) 


pour un paramètre scalaire 6 (c’est-à-dire pour un paramètre @ de 
dimension f). 

Vu que les observations X,, X,, ..., À, sont indépendantes. 
et équiréparties, il vient 


I (8: X)=» | (UMEIO |; (x: D dr=nt(0; X). (8.6) 


Si le paramètre @ — (8h, ..., OA)) est de dimension 4 > 2, 
au lieu de la quantité d’information (8.6), on considère la matrice: 
d'information de Fisher I (6, X) de dimension À *X kÆ, d'éléments 


8n£ ôlnL;\ 
(6, X)=E (in : So ) | (8.7) 


Ces notions ont été introduites par Fisher dans les années 20. 

La formule (8.6) nous permet de calculer sans peine la quantité 
d'information 7 (6; X) contenue dans une observation du paramètre. 
0 dans bien des cas. 

1. La variable aléatoire à une dimension X = x suit une loi 
normale de paramètres (a, 0°) et de densité q (x; a, o*) (cf. n° 6.1.5), 
où la moyenne a = 6 est un paramètre inconnu et la variance 0° est 
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connue. Alors 


© 
I (a; z) = | (ee D | p(z; a, 0?) dr = 
a 
—œo 
œ 9 ; 
= | (=) p(z; a, 0?) dr =. (8.8) 
Ce résultat admet l'interprétation naturelle suivante: plus la 
variance 0° est élevée, plus la dispersion des valeurs observées de 
X est grande et moins une observation contient d’information sur la 
moyenne de X. 
2. La variable aléatoire à une dimension X = x suit une loi 
normale de paramètres (a, 6“), de densité p (x; a, 0°) (cf. n° 6.1.5), où 


la moyenne a est connue et la variance o* = 0 est un paramètre in- 
<onnu. Alors 


I (0? ; = | (eee 0 À oz; a, 0°) dx - 


e AT 4 -12 1 
= | CS---r J'otie oder (8.9) 
3. La variable aléatoire à une dimension X = zx suit une loi 


gamma de paramètres (a, b) dont a est connu et b inconnu (cf. 
n° 6.2.5). Alors 


rs l : 
IG n= | (RENE) pondre. (810) 
0 


8.3. Inégalité de Rao-Cramer-Fréchet et mesure 
de l'efficacité des estimations 


Au n° 8.1.5 nous avons défini l'efficacité d’une estimation 6 
d'un paramètre inconnu © comme la moyenne du carré de l'écart 


de 6 par rapport à la valeur théorique de 6, soit E (Ô — 6}. Cette 
définition appelle la question suivante: n'est-il pas possible de 
décrire les bornes de cette efficacité, c'est-à-dire le minimum (sur 


toutes les estimations 6) de la moyenne E (6 — 6}° qu'il est im- 
possible d'améliorer ? Ce minimum nous servirait de point de dé- 
part pour établir une échelle absolue pour mesurer l'efficacité des 
‘estimations. La réponse à cette question nous est fournie par l’iné- 


galité de Rao-Cramer-Fréchet connue encore sous le nom d'’inégalité 
d’information. | 
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Considérons la classe de toutes les estimations 6 d’un paramètre 
scalaire Ô dont dépend la densité de probabilité f (X ; 6) de la popu- 
lation générale étudiée. Posons 

Eô = | Ô (Xi, -.. Xn) L(Xi +. Xn: 0) dX1 
... dX, = 0 + be (6), (8.11) 


c'est-à-dire que la quantité D, (8) nous donne le biais de l'estimation 


Ô (il est évident que ba (80) = 0 si Ô est sans biais). 

Si la densité de probabilité f (X ; 8) satisfait certaines conditions 
de régularité (par rapport au paramètre 6), plus exactement, si 

a) le domaine des valeurs possibles de la variable aléatoire dans 
lequel f (X ; 0) Æ0 ne dépend pas de 8; 

b) la dérivation par rapport à 6 est licite sous le signe d’intégra- 
tion dans la formule (8.11) et dans l'identité VER D, CS. ES 
8) dX, ...dX, = 1; | 

c) la quantité Z (8; X) définie par (8.6') n'est pas nulle, alors 
pour toute estimation ô du paramètre 6, on a l'inégalité 

dbs (6) 


+5) 
E (Ô— 6} > Test | (8.12) 


ou, ce qui revient au même, 


db « 
ne CR) 
L'inégalité (8.12) se généralise à un paramètre 6 — (8), ... 


_ OtX)) de dimension #2 2. Dans ce cas, sous les mêmes condi- 
tions de régularité a), b) et c), la matrice 


E(Ë)—+ 11 (8, X) (8.13) 


est semi-définie positive pour toute estimation vectorielle sans biais 
6 du paramètre 6 : Z (6) est la matrice des covariances de l’esti- 


mation vectorielle 8 — (BL, sus êt)) et Z-1(6, X) la matrice 
inverse de la matrice de Fisher définie par les relations (8.7) pour 
X = X (c'est-à-dire pour l’unique observation X). 

Les inégalités d’information (8.12), (8.12’) et (8.13) nous per- 
mettent d'introduire une mesure de l'efficacité des estimations sur 
la classe des populations générales régulières (au sens des conditions 


14—0273 
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a), b) et c)). Il semble, en particulier, naturel de mesurer l'effica- 
cité d'une estimation scalaire sans biais Ô de 6 par le rapport e (Ô) 
de la plus petite valeur de la variance de Ô, qui est définie par le 
second membre de (8.12), à la variance de ô, soit 


A À A 
ns + un 2 
e (8) = TE: X) :E (0 — 6)2. (8.14) 
Calculons l'efficacité de certaines estimations des paramètres 
a et 06° dans les conditions de l’exemple 8.1. 
4. Prenons pour estimation de la moyenne a d’une variable 
aléatoire normale la moyenne arithmétique empirique, c'est-à-dire 
posons 


n 
 — 1 
a=z(n)=— » T;. 


ir { 


Les observations z; étant indépendantes ct équiréparties, on a 


s|= 
MA 3 
tri 
8 
Î 
[= 
NA 5» 
S 
Î 
Q 


Ea -- 


Comme 7 (a, x) = 1/0° (cf. (8.8)), la formule (8.14) nous donne 
e(x(n)) = 1, c'est-à-dire que l'estimation x (7) d'une moyenne 
normale est inaméliorable. 

2. Prenons pour estimation de la variance ©o* d’une variable 
aléatoire normale « corrigée » la variance empirique 


n 


(n)=— 7 D (2 (m2. 


ii 


On a vu plus haut (cf. n° 8.1.4) que Es° (n) — 0°, c'est-à-dire que 
s® (n) est une estimation sans biais de o*. Les calculs nous donnent 
(cf. par exemple [40]) 


9 


S 2 2 2(n—1 2 
Vs? r) = . Vs? (n) = . D Pr ot. 


) 


Comme J (0°, x) = - 


3 (cf. (8.9)), la formule (8.14) nous donne 
e(s® (n)) = (n — 1}/n, c’est-à-dire que l'estimation s° (n) n'est pas 
efficace bien qu'elle soit proche de 0° pour les échantillons de grande 
taille. On démontre par ailleurs que si pour estimation de 0° on re- 
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tient la statistique 


n 
sÿ (2) = D (xy— 0}, 
i=1 
ce qui est licite, puisque la moyenne a est connue, alors elle est ef- 
ficace. 

Signalons en conclusion que l'inégalité d'information n'est valable 
que sur la classe des populations générales régulières (au sens des con- 
ditions a), b) et c) du $ 8.3). Si, en particulier, le domaine des valeurs 
possibles de la variable aléatoire, pour lesquelles la densité f (z; 
6) est strictement positive, dépend du paramètre 6, alors l’inégalité 
d’information est mise en défaut. Présentent de telles densités non 
régulières la répartition uniforme (dont les paramètres sont les 
bornes de l'intervalle de variation de la variable aléatoire, cf. 
n° 6.1.7), la répartition exponentielle de paramètre de localisation 
6, c’est-à-dire la répartition de densité 


9 5 pour z > 06; 
PRO 0 pour << 0. 

Si en passant outre le fait que cette densité ne vérifie pas les 
conditions a), b) et c), on calcule à l’aide de la formule (8.6) la quan- 
tité d'information contenue dans n observations indépendantes, on 


trouve que Z (8; x, ..., x,) — nr. Donc, en vertu de l'inégalité 
d'information (8.12), on aurait dû conclure que la variance d'aucune 


estimation 0 de6 ne peut être strictement inférieure à _ . En même 
temps, il est aisé de calculer (cf. n° 8.6.5) la moyenne et la variance 


E6 — 0 et vô = À 
n 
de l'estimation 


à 1 
0= Zmin (7) — FE (8.15) 


OÙ Zmin (2) désigne comme toujours la valeur minimale de l'échan- 
tillon x, ..., x 


Donc, si l’on se sert de la formule (8.14) pour mesurer l'efficacité 
de l'estimation (8.15), on constate que l'efficacité de l'estimation 


ô n'est pas simplement supérieure à l'unité, mais elle tend vers 
l'infini lorsque la taille r de l'échantillon croît (puisque e (0) = 
Li — n). De telles estimations sont dites « superefficaces ». 


Rn °n 
Remarque sur les variables aléatoires discrètes. Tous les résultats 
exposés ci-dessus (notion de quantité d’information, inégalité d’in- 
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formation, mesure de l'efficacité d’une estimation) se généralisent 
aux variables discrètes avec les mêmes contraintes a), b) et c) moyen- 
nant quelques modifications évidentes : la densité f (zx; 8) doit être 
remplacée par les probabilités p;, (8) = P {£ = zf | 6} et l’intégra- 
tion, par une sommation sur toutes les valeurs possibles de la va- 
riable aléatoire discrète. Donc, les analogues discrets de la quantité 
d’information (8.6’) et de l'inégalité d'information (8.12) seront 


LG; 24... s)=nt (6; m=n2 (Sen), (6); (846 


(1+ 20) 
"2 (no) pi (8) 


Considérons à titre d’ . une variable aléatoire de Poisson 
(cf. n° 6.1.2), c'est-à-dire que 


pi (A) = P {=ila}= e-, i=0, 1, 2, 
IG; 2)= Y (220) > => (21) 
1=0 


autrement dit, la variance de toute estimation sans biais À de À ne 
peut être strictement inférieure à _ I (À, zx) = 2. Si, pour estima- 


Vô > (8.17) 


tion de À, on prend la moyenne empirique zx (n), alors 


HÂE (hits |" 


n ? 


Vi= V (ete) 2 Envie 


Donc, l'estimation À = x (n) du paramètre À dans la répartition 
de Poisson est efficace. 


8.4. Propriétés asymptotiques des estimations 


Toute estimation 8 (X,, ..., X,) traitée comme une fonction 
des résultats « hypothétiques » des observations est une variable 
aléatoire dont les propriétés sont, par conséquent, définies par sa 
fonction de répartition F, (u; nr). Vu que l’estimation est construite 


à l’aide d’un échantillon de taille » finie, sa fonction de répartition 
dépendra généralement de #, ce qui d’ailleurs est exprimé dans sa 
notation. Mais si la définition pratique des lois de probabilité des 
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estimations pour des échantillons de taille » finie est très compliquée 
dans la plupart des cas, il est, par contre, bien plus simple de calculer 
leur loi asymptotique (moyennant une normalisation adéquate). Soit, 


en particulier, Ÿ une estimation de 8 et supposons qu'il existe une 


fonction de répartition Fa (u) dérivable et continue, telle qu’en 
norm 
tout point u l’on ait 


P{n (Ô—0) < u} — Fa (u) lorsque r —+> co. (8.18) 
norm 
Dans ce cas, la fonction F, (u) = F, (V/ n u) s'appelle fonction 
0 © norm 
de répartition asymptotique de l'estimation 6 et les valeurs 


LL +7. 
Das (6 = TV | uf des (u) du 
et 


Ge (O7 [Tu fofo, (0) do] Fénor (0) du 


respectivement biais asymplotique el variance asymptotique de cette 
estimation. 

Si le biais asymptotique est nul, l’estimation est dite asymptoti- 
quement sans biais. Une estimation asymptotiquement sans biais n'est 
pas sans biais au sens ordinaire et, réciproquement, une estimation 
sans biais n’est pas nécessairement asymptotiquement sans biais. 
Mais en pratique la propriété d’être sans biais est plus forte et les 
estimations sans biais sont généralement asymptotiquement sans 
biais. De même, il n’est pas obligaloire que oi, tende vers la va- 
riance de l’estimation pour une normalisation convenable lorsque 
n—+ ©. La variance de l'estimation peut en effet ne pas exister. 
Pourtant, on ne peut affirmer que la variance asymptotique de 
l'estimation est toujours inférieure à la variance, bien que ceci ait 
généralement lieu en pratique. 

Exemple 8.2 (la fréquence comme mesure de la probabilité). 


En vertu du théorème limite central (cf. $ 7.3), la fréquence p =" 


d’un événement dans une série de x expériences suit une loi asymp- 
totiquement normale de moyenne égale à la probabilité respective 


Pp = Ep et de variance 0° = p (1 — p}/n, c'est-à-dire que 
P {Cp — p)/o <u } — O (u) lorsque nr — co. 


Si l’on traite P comme une estimation du paramètre p, on remar- 
que que c’est une estimation sans biais et asymptotiquement sans 
biais dont la variauce et la variance asymptotique sont égales 


« 


à O2. 
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Si Ô est une estimation vectorielle du vecteur 9, on peut, par 
analogie avec (8.18), définir une fonction de répartition F$ .. (U) 


de dimension #. Pour cela, il suffit dans (8.18) de remplacer 6, 6 et 


u respectivement par les vecteurs Ô, 8 et U et de comprendre cette 
inégalité comme une inégalité réalisée simultanément pour toutes 


les composantes. Supposons par ailleurs que Ô est une estimation 
asymptotiquement sans biais de 6, c’est-à-dire que 


| U-f6 ,orm (U) dU = 0 et qu'existe lamatrice des covariances 


s=|(ubws (0) dU|, à, j=1,..., 


Alors la matrice nr! Ÿ scra appelée matrice des covariances asymp- 
totique de l'estimation ©. 
Définissons la notion d'efficacité asymptotique d'une estimation. 


Soient ô, et Ô. deux estimations asymptotiquement sans biais dif- 
férentes de ©. On dit que l'estimation ô, est asymptotiquement plus 
efficace que l'estimation Ô, si la variance asymptotique de 6, est 


strictement inférieure à la variance asymptotique de Ô.. S'agissant 
des estimations asymptotiquement sans biais vectorielles, on dit 


qu’une estimation ô, est asymptotiquement plus efficace qu’une esti- 


mation ©, si existent les matrices des covariances asymptotiques 
Z, et Z, de ces estimations et si, de plus, la matrice 2, — Z, est 
semi-définie positive. Si les estimations sont vectorielles, il est pos- 
sible qu’on ne puisse dire laquelle des deux est la plus efficace mal- 
gré l'existence des matrices X, et Z.. 


8.5. Notion d’estimation par intervalles. Construction 
des régions de confiance 


Quand on calcule une estimation 6 (X;,, -.., À,) d'un para- 
mètre 6 à l'aide des observations X,, ..., À,, on sait pertinement 


que ô n'est qu'une valeur approchée du paramètre Ô même dans le 
cas où cette estimation est convergente (c’est-à-dire tend vers 6 
lorsque n croît), est sans biais (c'est-à-dire est confondue avec 6 en 
moyenne) et efficace (c'est-à-dire présente les plus petits écarts alea- 
toires par rapport à 6). Une question se pose: quel est le plus grand 
écart entre la valeur approchée (l'estimation) et la valeur véritable 
de 6? En particulier, peut-on indiquer une quantité À telle que 


1 6 — 6 | < À avec une probabilité proche de l'unité donnée à 
l'avance? Ou encore, peut-on indiquer un intervalle de la forme 
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16 — À, ] + Af qui contienne la valeur véritable de 8 avec une pro- 
babilité donnée à l'avance proche de l'unité? Cette probabilité 


s'appelle niveau de confiance, l'intervalle ]d — A, Ô + AI, intervalle 
de confiance. L'’intervalle de confiance est aléatoire (c'est pourquoi 
il est question de la probabilité de recouvrir un point inconnu mais 


non aléatoire 8 !) aussi bien par sa position (6 n'est-elle pas aléatoi- 
re?) que par sa longueur (A est en général une fonction des données 
empiriques X,, ..., À,). La longueur de l'intervalle de confiance 
dépend essentiellement de la taille nr de l'échantillon (il diminue 
lorsque 7x croît) et du niveau de confiance (il augmente lorsque ce 
niveau se rapproche de l'unité). 

Toutes les définitions et notions de ce paragraphe se généralisent 
sans peine à un paramètre vectoriel @ — ((81), ..., O*)) en rem- 
plaçant l’intervalle de confiance par une région de confiance dans l’es- 
pace à Æ dimensions correspondant (voir la forme de ces régions sur 
la figure S.1, a et b). 


8.6. Méthodes d’estimations statistiques des paramètres inconnus 


Au paragraphe précédent nous avons vu comment utiliser les 
fonctions des observations initiales X,, ..., À, pour estimer les 
paramètres inconnus et avons étudié leurs propriétés. Mais on ne 
sait encore pas comment combiner les résultats de ces observations 
pour construire les statistiques à l’aide desquelles on estimera de la 
meilleure façon (dans un sens précis) tel ou tel paramètre. On ne 


sait encore pas, par exemple, comment on a établi que x (n) et s° (n) 
(cf. (8.3), (8.4)) se prêtaient le mieux à l’estimation de la moyenne 
a = Eë et de la variance o* = VE d’une population générale normale. 
On ne sait, enfin, encore pas comment construire les intervalles et 
les régions de confiance pour les valeurs inconnues des paramètres. 

On se propose dans ce paragraphe de décrire des méthodes qui 
nous permettront de répondre à toutes ces questions. 


8.6.1. Méthode du maximum de vraisemblance. D'après cette 


méthode, toute estimation 6, du paramètre inconnu © sur le vu 
des observations X,, ..., X, d’une variable aléatoire E (suivant 
une loi de probabilité de densité f; (X; @) ou de probabilité 
P {£ = X}) se définit à partir de la condition 


LAS, ss Aa: ns) = max L (X1,..., À, ; 6, (8.19) 
ô 
où L est la fonction de vraisemblance définie par la relation (8.5). 


Donc, l'estimation du maximum de vraisemblance 8, de 8 sur 
le vu des observations indépendantes X,, ..., X, peut être écrite 
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formellement : 


Ô nv = Arg max [[ f (X:: 6). (8.19) 
Ô {ni 


Le caractère naturel de cette définition des estimations statisti- 
ques résulte de la signification de la fonction de vraisemblance. En 
effet, par définition (cf. $ 8.2), la fonction L (X,, ..., X,; ©) 
est pour toute valeur fixe de © la mesure de la vraisemblance des 


Ply;a; 5°) 
(y. 5245 ; 008) P(y:5,443; 008) 


500 510 516 525 532 5443 560 7 


Fig. 8.2. Représentations graphiques de la’densité normale pour deux valeurs 
distinctes du paramètre a 


valeurs observées X,, ..., À,. C’est pourquoi, en se donnant des 
valeurs concrètes de X,, ..., X,, on peut voir pour quelles valeurs 
de © ces observations sont plus vraisemblables et choisir en fin de 


compte la valeur de Onv: pour laquelle le système d'observations 


X1, -.., À, est le plus vraisemblable (il est évident que 8, est 
une fonction de X,, ..., À,). Supposons, par exemple, qu’un salaire 
ë suit une loi lognormale (cf. n° 6.1.6). Supposons que dans le but 
d'estimer la moyenne du logarithme du salaire a = E (In £) on ait 
fixé les salaires z, — 190 roubles, x, = 175 roubles et x; — 205 
roubles de trois personnes prélevées au hasard dans la population 
générale étudiée. Portons les valeurs y; = In zx; (i — 1, 2, 3) sur 
l’axe des valeurs possibles de la variable normale n = In & et essayons 


de trouver une valeur a, du paramètre a de la loi normale W (a, 0°) 
telle que les observations y,, y:, y, Soient les plus vraisemblables, 
plus exactement, telle que le produit des ordonnées de la densité 
@ (y; a; 6°) calculées aux points respectivement d’abscisses y, = 
= ]n 190 = 5,25, y, = 1n 175 = 5,16 et y, = 1n 205 = 5,32 soit 
maximal. La figure 8.2 représente les graphiques de la densité de 
probabilité q (y; a; 02) pour la valeur a, = y = 5,243 correspon- 
dant à la plus grande vraisemblance des observations y, —,5,25, 
Ye = 5,16 et ys = 5,32 (la courbe pleine), ainsi que pour la valeur 
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a = 5,443 pour laquelle les observations sont manifestement invrai- 
semblables (la courbe en pointillé): dans les deux cas la variance 
o2 a été calculée à l’aide de l'estimation corrigée du maximum de 
vraisemblance et est égale à 0,0064). 

Les bonnes propriétés des estimations obtenues par le maximum 
de vraisemblance plaident en faveur de cette approche. On peut 
prouver, en particulier, que si des conditions de régularité assez 
larges sont imposées à la loi f (X ; 6) (cf., par exemple, [8]), les esti- 


mations du maximum de vraisemblance Ê du paramètre 6 sont 
convergentes, asymptotiquement sans biais, asymptotiquement normales 
et asymptotiquement efficaces (c'est-à-dire que leur matrice asympto- 


tique des covariancesZ (6...) est de la forme Z (8,,,) = n-11-1: (8:X), 
où 7 (6 ; X)est la matrice de Fisher définie par (8.7) dans le cas d'une 
seule observation, c’est-à-dire pour X = X). 


Mais cela ne signifie pas que les estimations du maximum de 
vraisemblance seront les meilleures dans tous les cas. Premièrement, 
leurs bonnes propriétés ne se manifestent souvent que dans des échan- 
tillons de taille élevée (c’est-à-dire sont asymptotiques, cf. $ 8.4) 
de sorte que pour » petit elles sont concurrencées (et même surpas- 
sées) par d’autres estimations, par exemple, les estimations de la 
méthode des moments, de la méthode des moindres carrés, etc. (cf. 
plus bas n° 8.6.2 à 8.6.5). Deuxièmement, et ceci est le point faible 
de cette approche, pour construire des estimations par le maximum 
de vraisemblance et pour que leurs bonnes propriétés puissent jouer, 
il est nécessaire de connaître exactement le type de loi de probabilité ana- 
lysée, ce qui est pratiquement impossible dans la plupart des cas. 
Dans ces condilions, il est plus payant de chercher non pas la meilleu- 
re estimation de la densité f (X ; 6) de la loi étudiée (estimation qui 
souvent perd ses bonnes propriétés des que la densité réelle s'écarte 
de f (X ; 6)), mais une estimation qui à défaut d’être la meilleure 
pour f (À ; @) possède des propriétés suffisamment slables dans une 
plus vaste classe de densités comprenant f (X : ©) comme cas particu- 
lier (cf. n° 8.6.4). De telles estimations sont dites stables ou robustes. 
Et, enfin, les estimations par le maximum de vraisemblance peu- 
vent même ne pas être convergentes si le nombre k de paramètres 6,,... 
. . +, 04 est élevé (est du même ordre de grandeur que la taille n de 
l'échantillon) et croît avec le nombre des observations. Un exemple 
d'une telle situation est exhibé plus bas (cf. exemple 8.7). 

Essayons de répondre à la question de savoir comment déterminer 
concrètement les estimations par le maximum de vraisemblance, 
c'est-à-dire comment résoudre le problème d'optimisation (8.19). 

Si la fonction f (X ; @) satisfait certaines conditions de régularité 
(dérivabilité par rapport à ©, etc., conditions a), b) et c) du $ 8.3) 
et si l’extremum dans (8.19) est atteint en un point intérieur du 
domaine des valeurs possibles de ©, alors les dérivées partielles de 
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la fonction Z (X,, ..., X,; 6) doivent s’annuler au point (J et, 
par suite, celles du logarithme de la fonction de vraisemblance 


L(X, ..., Xn3 0) =InL(X, .…., X,: @)— 
= > Inf(X;, 0) (8.20) 
i=1 


en raison de la monotonie de la relation liant Z à Z. Mais la fonction 
l'est plus commode dans les calculs. Donc, dans le cas traité, l’esti- 
mation ô, = (ôc., RE ôt) ) doit satisfaire les équations 

OT(X 1, ... , Xn; 0) _— 

—— 367 = 0, ] — {, 2, ...) k, (8.21) 
et peut être définie comme la solution de ce système d'équations. 

Il existe des cas (correspondant à des lois de probabilité non 
régulières par rapport à @) où le système (8.21) n’est pas défini ou 
ne possède pas de solutions, alors que la solution de (8.19") existe. 
En pareille circonstance, il faut chercher l'estimation CJM par 
d'autres méthodes, y compris par une sélection directe de la solu- 
tion de (8.19) (cf. plus bas, exemples 8.5 et 8.6). 


Exemple 8.3. Considérons une variable aléatoire normale E de 
densité de probabilité 


de moyenne a — EË& et de variance 0? = VE inconnues. 
En vertu de (8.5), la fonction de vraisemblance s'écrit 


1 LL 
y Zor 2 (1-0 


L'(ty, ..., Zn 0, C)=——e tæmi . 


(2x) 2 0" 
Le logarithme de la fonction de vraisemblance 
d'(Li 25: T5 €, 7) — — In (21) — + Ino? — 
# 
1 
JE >} (x, — a)?. 
ii 


En dérivant L par rapport à a et o? et en annulant successivement 
les dérivées partielles, on obtient le système (8.21): 


n 
OL (Z,, -.., Tn3 4, 0°) 1 : 
imi 
n 
OL (Ty, +, En: 8, 0°) n 1 1 2 
en 2 any A D 


iz 1 
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La résolution de ce système par rapport à a et 6? nous donne les 
estimations par le maximum de vraisemblance de ces paramètres : 


Env = — S Ti; = S (x; — x}?. 
ii is { 


On a vu au $ 8.3 que l'estimation Ans = z(n) est une estima- 
tion efficace du paramètre a (puisque son efficacité e (@n+) 1): 
On en déduit que l'estimation 02, — $2 (n) est une estimation asymp- 
totiquement efficace du paramètre 02 (son efficacité e (oëv) = = 


ni tom LE Cu LE 


Exemple 8.4. Considérons une variable aléatoire de Poisson E, 
de densité de probabilité 


T (ZT: À) = P{È= zx} — e-r (z=0, 1, 2: a) 
où À est un paramètre inconnu. 


En vertu de (8.20), le logarithme de la fonction de vraisemblance 
construit sur l’échantillon x,, z+, . . ., x, S’écrit 


1 € PER NE A)=Ù (zlni—In(z!)—À)= 
iæi 


= (In À) - >; Tr — In (x; 1) — nÀ. 
i= 1 im 1 


Üne dérivation par rapport à À nous conduit à l'équation de la mé- 
thode du maximum de vraisemblance 


n 
1 
g" >, z—n=0, 
| 
d’où 


n n 
Il est immédiat que cette estimation est sans biais, puisque 


n n 
Elny= E(D a)n=(2 En)/n= nn = 


Calculons l'efficacité de À... La borne inférieure de la variance 
sur toutes les estimations possibles du paramètre À peut être calculée 


220 ÊLEMENTS DE STATISTIQUE MATHÉMATIQUE 


à l’aide de l'inégalité d'information (8.12): 
— 1 | 12 Es 
nE(infé:n) nE (+1) nE (z—à) n ° 


Calculons la variance de l'estimation À, en partant du fait 
suivant (cf., par exemple, [40]): la somme de variables aléatoires 
indépendantes de Poisson z,, Z:, . . ., z, de moyennes respectives 
As Âos + - + An est une variable de Poisson de moyenne À, + À, + … 

. + À,. Donc, 


n n 
hr V (LS a)= LV (D a)= home À, 
{=1 i=1 


En comparant (VA)min et VAny: On S’assure que l'estimation par 
le maximum de vraisemblance de la moyenne d’une variable aléatoire 
poissonnienne est cfficace. 

Exemple 8.5. Soit E une variable aléatoire uniforme (cf. n°6.1.7), 
c'est-à-dire telle que 


1 
«_—— six E(a, b]; 
f(x; a b)= Fi Le 


où a et b sont des paramètres inconnus (à estimer). 

Il est immédiat de s'assurer que ce cas est irrégulier (ne serait-ce 
que parce que le domaine des valeurs possibles de &, dans lequel la 
densité est strictement positive, dépend des paramètres a et b). Donc 
la technique habituelle qui utilise les équations (8.21) de la méthode 
du maximum de vraisemblance est mise en défaut. Cependant, le 
problème d’extremum (8.19) peut être résolu directement. 

En effet, 

1 
(b—a)" ? 


le domaine des valeurs possibles des paramètres a et b, dans lequel 


LL. se: 22: 4; 0)= 


on cherche les valeurs mr et by pour lesquelles 1/(b — a) = max, 
a, bd 
étant défini par les relations 


a< min {7} —=Zmin (A); 
1S<1< 
bZ> max ({2:}==Zmax (7) 
1sign 
OÙ Ty, Lay +  -) Th SOnt les valeurs observées de &. Il est évident que 
la solution du problème d’'extremum 


1 
max Ta ? a < Tmin (2), 0 > Tmax (1) 
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est 


Amv = Tmin (2); Omy = Tmax (/)- 
Les résultats du n° 5.6.4 (ainsi que du n° 8.6.4) nous permettent 
de calculer : 


A b— 
Ea,y = Extpin (n) = à + Feu , 


Vanv = Vinin (n) = 2 


n 
maps (L—0) 


A be 
Ebyy = Ezmax (2) = b— , 


Vômv = Vrmar (0) = ps — «)°. 

On ne peut appliquer l'inégalité d’information au calcul de la 
borne inférieure de la variance de ces estimations, puisque ce cas 
est irrégulier. Sur (S.22) on voit que les quantités Van et Vb 


La e Lo # e . uv 
caractérisent en mème temps l’écart-type des estimations 


Zmax (7) —Zmin (n) : 


€ mv = Zmin (7) — n—=1 


à Zmax (n)—z 

bnv = Linax (re) + EE Emi @) 

par rapport aux valeurs véritables des paramètres a et b. 
Exemple 8.6. Revenons à l'estimation du paramètre de locali- 

sation 6 dans une loi exponentielle de densité 


e"%-8) pour z > 8; 
f(x; 0)= 
0 pour z< 6. 
Comme dans l'exemple précédent, nous avons affaire à un cas 


irrégulier. Force est donc de résoudre directement le problème d'ex- 
tremum 


n 
= > (xi—0) 


max L (21. ..e3 Th; 0) —maxe “ui . 
) 


| (8.22') 
0< : mr : {2j} = Zmin (2). 


Il est aisé de voir que ns = Zmin (A) est solution de ce problème : 
pour tout autre 6 vérifiant la condition (8.22), il est évident que 


2m À Ir Bmr—e]= À (ri Om) + 


{= 


+re> 2 (Zi — UE 
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et, par suite, 


PRE TORRES 2e bn) > L(zr ss de 0) 


Grâce aux résultats du n° 5.6.4 (ainsi que du n° 8.6.4), on peut 
calculer 


| 
E6,,, = Exypin (2) = 0 + FE ; 
| 


Ve = E (Zn (7) — Exmin (2))2= = ; (8-23) 
À 2 1 2 
E (Guy —8)°=— VOmv + 7 — TE : 
Mais l’écart-type de l'estimation 04, — CIM — + , déduite de 


l'estimation nr corrigée, vaut 
E nr 0) = +. (8.24) 


Exemple 8.7 (emprunté à [138] p. 187). Etudions un cas où 
la méthode du maximum de vraisemblance ne fournit pas une esti- 
mation convergente. 

Pour estimer nr concentrations a, @, - .., a, d'un élément, 
on a procédé à une double mesure (z,, y;) de chaque concentration 
a;. On admet que les 2r mesures z;, Yi, Zo, Yo - + +; ns Un Ont été 
effectuées avec la même précision et sont des variables aléatoires 
normales indépendantes (cf. n° 6.1.5), de sorte que la fonction de 
vraisemblance est 


L (x, Uys ces Tns Yns is Ans ee. Un; o?) = 


1 


n 
202 > [(xi-ai)2+(vi- 12] 


… 1 tu 1 
(a) on 6 / 
Les paramètres inconnus sont les 7 moyennes a;, a, . .., a, et 


la variance 02. On obtient sans peine l'estimation du maximum de 
vraisemblance des paramètres a; : 


a 1 
dj mv = 5 (Zi + Yi). 


La résolution de l'équation du maximum de vraisemblance (8.21), 
dans laquelle on aura substitué a; my à &i, nous donne 


n 
. 4 
nv — 2 > (Zi — yi)?. 
1=1 
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On établit sans peine que E02, = + , C'est-à-dire que la métho- 


de du maximum de vraisemblance nous conduit à une estimation de 
e e. e e. » ce # » 6° 
62 de biais constant (asymptotiquement inévilable) égal à ot 


Pour meilleure estimation sans biais il aurait fallu prendre ici la 
statistique 


LS ef 


{= | 


8.6.2. Méthode des moments. Soit E une variable aléatoire p-di- 
mensionnelle dont la densité de nes f (X ; 8) si & esl conti- 
nue, ou la probabilité P {£ — X | @} si & est discrète, dépend d'un 
paramètre © = (@(h, . , 00) multidimensionnel. On se propose 
d'estimer le paramètre e. c'est-à-dire de construire une estimation 


sur le vu des observations indépendantes X,, ..., X,, où X; — 
— (20 3246-28) 

La méthode des moments consiste à égaler un certain nombre de 
moments empiriques aux moments théoriques respectifs (c'est-à- 
dire calculés à l’aide de la fonction f (X ; @)) qui, à noter, sont mani- 
festement fonctions des paramètres inconnus 601), ..., 64%). En 
considérant un nombre de moments égal au nombre * des paramé- 
tres à estimer et en résolvant les équations obtenues par rapport à 
ces paramètres, on obtient les estimations cherchées. Donc, les esti- 


mations ôtu, si gun de 80), ..., 64%) par la méthode des mo- 
ments sont solutions du système d'équations: 

{ n 

| HD. f (X:0)4X = + D x0, 11,9, ..., p: 


i= 1 


faD.200.5(X:8) dX= À D fai, 1, m=1, 2, ...p; (8.25) 
is { 

(si la variable aléatoire & est discrète, il faut remplacer les intégra- 

les’ des premiers membres de (8.25) par les sommes correspondantes 


2x -P {E = X$10}). 


Le nombre des équations du système (8.25) doit être égal au 
nombre # des paramètres à estimer. La question de savoir quels mo- 
ments (initiaux, centrés ou certaines de leurs modifications du genre 
coefficients de dissymétrie ou d’aplatissement) il faut inclure dans le 
système (8.25) doit être résolue en fonction des objectifs concrets de 
l'analyse et en recherchant la plus simple forme de dépendance des 
caractéristiques théoriques alternatives des paramètres à estimer 
6), ..., 04). Dans la pratique, on atteint rarement les moments 
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d'ordre quatre (exception faite de l'exploitation du « système de 
courbes de Pearson », cf. par exemple [27], mais cet appareil pure- 
ment formel d’ajustage de la loi empirique sur la loi théorique est 
inapte, à notre sens, à résoudre des problèmes de statistique appli- 
quée tant soi peu intéressants). 

La méthode des moments a le mérite d’être assez facilement réa- 
lisable sur le plan numérique et de fournir des estimations (les solu- 
tions du système (8.25)) qui sont fonctions des moments empirique. 
Ceci simplifie l'étude des propriétés statistiques des estimations: 
on démontre (cf. [40], chap. 27 et 28) sous des conditions assez géné- 
rales que ces estimations suivent une loi asymptoliquement normale 
pour de grands n, que leurs moyennes diffèrent des valeurs théori- 
ques du paramètre d’uue quantité de l’ordre de nr”! et que l’écart- 


type o Burn) est asymptotiquement de la forme cn-!/*, où c est une 
constante. 

Par ailleurs, Fisher (cf. [40]) a prouvé que l'efficacité asymptoti- 
que des estimations de la méthode des moments est généralement 
inférieure à l'unité, et de ce point de vue elles le cèdent aux estima- 
tions du maximum de vraisemblance. Mais ceci n'empêche pas la 
méthode des moments d’être très commode sur le plan pratique. Ses 
estimations sont prises parfois pour premières approximations et 
sont ensuite améliorées par des méthodes de plus grande efficacité. 

Revenons à nos exemples. 

Dans l’exemple 8.3, le système (8.25) s'écrit 


n LO 
a=—Da; 
i= 1 


n 
1 o 
c+a=—Y TZ}, 


1=1 


ce qui nous donne les estimations déjà obtenues par la méthode du 
maximum de vraisemblance : 


ñn 

a 4 — 

Amm= > TZ, =ZT(n); 
i= 1 


Game Da D (a —7 (n))= $2 (n). 


is iz | 


Les cas où l'échantillon suit la loi normale ou la loi de Poisson 
font partie des rares cas où les estimations de la méthode des mo- 
ments sont confondues avec celles du maximum de vraisemblance 
(on s’en assure sans peine en s’adressant à l’exemple 8.4). 
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Dans l'exemple 8.5, le système (8.25) s'écrit : 
ab = 
D _— TZ (nr) ; 
(a) _ 2 
m5 ——S$ (n). 
D'où l’on déduit sans peine 


Emm=2z(r)—V3s(n); 
bmm=z(n)+V3s (n). 


On peut comparer l'efficacité asymptotique des estimations 
acquises par la méthode du maximum de vraisemblance et par la 
méthode des moments: vu que la variance des estimations (8.26) 
en tant que variance de fonctions des moments empiriques x (n) 
et s° (n) est de l'ordre de n°7? (cf. [40]) et vu que la relation (8.22) 
qui exprime que la variance des estimations du maximum de vrai- 
semblance des mêmes paramètres est de l’ordre de n°, on déduit 


que l'efficacité de Anm et de b,.., par rapport à celle de Any et de 
bn tend vers Ô lorsque nr — oo. 


La réalisation de la méthode des moments dans l’exemple 8.6 
nous donne 


(8.26) 


1+6=7zxt(n). 
Donc, ônn = z(n) — 1. 


Pour calculer la moyenne et la variance de l'estimation 6,,, on 
se servira des faits suivants: a) la variable aléatoire zx, qui suit une 
loi exponentielle de paramètre À = 1 et de paramètre de localisa- 
tion 6 (cf. n° 6.1.8) peut être interprétée comme un cas particulier 
d'une variable aléatoire répartie d’après une loi gamma de para- 
mètres a = 1, b — 1 et de paramètre de localisation 6 (cf. n° 6.2.5); 
b) la somme de n variables aléatoires indépendantes zx,, z:, . .. 
-.., Zn Suivant chacune une loi gamma de paramètres a = 1, 
b = 1 et de paramètre de localisation 6 est répartie suivant une loi 
gamma de paramètres a = nr, b = 1, et de paramètre de localisa- 
tion 6 (cf. n° 6.2.5). Donc, 


Em = E(Z(n)—1)= "TR 10; 
E (mm — 0) = Vhan = V & (n)—1) = 4, rs 


n 
En tenant compte de l’expression (8.24) de l’écart- ee de l’erreur 


de l'estimation « corrigée » et Êv du paramètre 6, on obtient 
1 


E (Ünv—0)° 


PTE n 
-=——0 lorsque n > ©, 
E (mm — 6)" n: 


15—0273 
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c'est-à-dire que dans ce cas l’efficacité asymptotique de l’estima- 
tion par la méthode des moments tend vers (0. 


8.6.3. Méthode des moindres carrés. Considérons une fonction 
4 (6, X) de forme connue dépendant d’un paramètre vectoriel inconnu 
6 —= (66, ..., 6%)) et d’une variable multidimensionnelle (non 
aléatoire) X = (zx), ..., x{P))’ caractérisant les conditions de 
réalisation de l'expérience aléatoire (ou de l’observation). Suppo- 
sons qu'à l'issue de la i-ième expérience (observation) on enregistre 
la valeur y; de la fonction + (6 ; X;) avec une erreur &; (cf. aussi (3.9)) : 


y; = Ÿ (0; Xi) +aeæ, i=t1, Drne n, 


sachant que la variable « auxiliaire » X; est connue très exactement. 

On demande d'estimer les paramètres 801), ..., 60%) avec la 
meilleure précision possible sur le vu des observations (y;, A1), . -. 
..., (Yns Xh). Contrairement aux procédures précédentes d'estimation 
(cf. n° 8.6.1 et 8.6.2), nous ne sommes pas dans l'obligation de nous 
donner la forme générale de la loi de probabilité des erreurs e; (et partant 
des variables aléatoires y;). 


La méthode des moindres carrés définit l'estimation Êe de 6 à 
partir de la condition 


D (ui — 9 One : X=min D (yi—V(8, Xi). (8.27) 


im 1 O6 i=1 


Sous des conditions assez générales imposées à la nature des er- 
reurs aléatoires £& et à la structure des fonctions 4 (6 ; X;). les esti- 
mations satisfaisant la relation (8.27) sont convergentes, asympto- 
tiquement sans biais. asymptotiquement normales et asymptotique- 
ment efficaces (cf. par exemple [114], chap. 4). Indiquons quelques 
conditions essentielles que doivent remplir €; et + (©; À) pour que 
les estimations de la méthode des moindres carrés soient douées de 
bonnes propriétés : 

a) les erreurs aléatoires e; ont des moyennes nulles (Ee; = 0) 
et des variances identiques finies Ve; = 0° ne dépendant ni du 
numéro ài de l'observation ni du paramètre © *). 

b) la fonction % (6: X) est continue et dérivable par rapport à 
tous les paramètres 601), ..., 604). 


*) En fait, la condition essentielle est l'indépendance de la répartition des 
erreurs €, par rapport à 6 : si cette condition est violée, les estimations de la 
méthode des moindres carrés cessent d'être convergentes. Si l'on a affaire à 
une dépendance de la forme Ve; = 0°, les estimations de la méthode des moin- 


dres carrés conservent leurs bonnes propriétés à condition d'introduire dans 
les termes de (8.27) des « poids » w; proportionnels à 07°. 


CH. 8. ESTIMATION STATISTIQUE DES PARAMÊTRES 227 


La méthode de calcul des estimations de la méthode des moindres 


carrés repose sur le fait que si ©, est un point de minimum du 
critère 


Q (8) = > (y: (@, X:))°, (8.27’) 


les estimations 81), ..., 0% doivent satisfaire le système d'équa- 


tions normales 


20 @me) _ 9, i=1, 2, ..., k. 


oôe 
Il est équivalent de dire que les estimations 84), ..., OX) des 
paramètres 60, ..., @(*) sont solutions du système d' équations 


l a (3) ’ 
in FEU im 00mc 


j=1, 2, ..., k. (8.28) 
Représentons les résultats décrits dans le cas particulier où la 
fonction est linéaire par rapport aux variables X et aux para- 


mètres ©. En adoptant les notations matricielles du chapitre 3, 
plus exactement, en introduisant la matrice des observations 


( 26) 2°) n zP) | 


é.: x à op (Êne: X 
S'y dYÿ ( me 5) = D P(Onc: Xi)- Ÿ (Omc i) 


IX = 20 20) 2x) 
E> 2) 20), ze | 
et les vecteurs colonnes des observations de la variable dépendante 
Ÿ = (y, Yo, - - ., Yn) et des erreurs aléatoires £ = (e,, . . .. €)’, 
on trouve (cf. (3.5)) que Ÿ = XO6 + & *). De façon respective, 
Q (e) = (Y — XE) (Y — XE), (8.27") 


et le système d'équations normales devient 
XXE = X'Y. (S.28”) 


La forme matricielle de la solution de ce système est 


One = (X’X)-IX'Y. (8.29) 


*) Pour introduire des coefficients qui soient les termes constants’ de ces 
équations, il faut composer la première colonne de la matrice X avec des valeurs 
d'une variable « fictive » identiquement égales à l'unité. 


15° 
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Interprétation géométrique des estimations de la méthode des 
moindres carrés dans le cas linéaire. Considérons un espace vecto- 
riel R" à nr dimensions et munissons-le de la distance p (U/, V) de 
deux vecteurs U, V € R" en posant 


p® (U, V) = (U — V) (U — V). 


Considérons le sous-espace T de À" engendré par les vecteurs co- 
lonnes de la matrice X ou, ce qui est équivalent, par tous les vec- 
teurs de la forme XO, où © € RP. Il est évident que la dimension 
de T est confondue avec le rang r de X, donc elle est <p et ne peut 
être égale à p que si r = p. Désignons par S l’ensemble des vecteurs 
de À" perpendiculaires à T. La dimension de S est rn—r. Tout vecteur 
U de R? se décompose d'une seule façon en deux composantes per- 
pendiculaires 

U = Ur + Us, (8.30) 


telles que Ur ET et Us € S. Ces composantes sont les projetées 
de U respectivement sur T et S. 


L'estimation de © par la méthode des moindres carrés nous don- 


ne une valeur du vecteur XO € T telle que le vecteur Ÿ — X6 soit 
de longueur minimale, ce qui exprime que chercher une estimation 
par la méthode des moindres carrés revient à projeter Ÿ sur T, ceci 
étant, Ÿ — XO ES. La décomposition de tout vecteur sous la 
forme (8.30) étant unique, le critère (8.27”) prend la même valeur 
pour toutes les estimations par la méthode des moindres carrés, 
ce qui a été déjà signalé plus haut. 
Etudions maintenant plus en détail les projections de Ÿ sur 
T et sur S. D'après l’hypothèse de base (3.6), le vecteur des erreurs 
suit une loi normale dans À”, est de moyenne nulle et possède une 
variance égale à 0° dans toute direction. Mettons-le sous la forme 
£g = £r +£s. Alors 
Yr = XO + er; (8.31) 
Ys = £s. (8.32) 
De (8.32), il s'ensuit immédiatement, compte tenu de la dimension 


de S et de la définition de 4° (cf. n° 6.2.1), que Q (ô,.)/0° suit une 
loi du #* (7 — r). De là on peut proposer pour o* l'estimation sans 
biais 

oc = Q (O,)/(n — r). (8.33) 


Optimalité des estimations de la méthode des moindres carrés. 
Lorsque r = p, la seule estimation de la méthode des moindres 
carrés est définie par la formule (8.29) qui, compte tenu de l'hypo- 
thèse (3.6), entraîne 


E6ô,. = 9, (8.34) 
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c'est-à-dire que l'unique estimation de la méthode des moindres 
carrés est sans biais (cf. $ 8.1). Montrons maintenant que parmi 


toutes les estimations linéaires sans biais de la forme Ô — AY 
(telles que AX6 = 0) l'estimation Êne possède la plus petite va- 
riance généralisée (cf. n° 5.6.7): 

Voôme = 0° | (X’X) 1 |. (8.35) 


À cet effet, projetons chaque vecteur ligne de la matrice A sur les 
sous-espaces T et S et formons avec ces projections les matrices 
respectives Ar et As. Comme À = Ar + As, il vient 


Ô = AY = ArŸ + AsY; (8.36) 
E6 = A,X6 + ASX®. (8.37) 


Les vecteurs lignes de la matrice As appartiennent à S, c’est-à- 
dire sont perpendiculaires aux vecteurs colonnes X, donc le second 


terme de (8.37) est nul. L'estimation @ étant sans biais, il s'ensuit 
que les vecteurs ArX6 et © doivent être confondus pour toutes les 
valeurs de 6. Ceci n’est possible, compte tenu du rang de X et du 
fait que les vecteurs lignes des matrices Ar et (X’X)-1X" appartien- 
nent au sous-espace T, que si 


Ar = (X’X)"!X". (8.38) 

Par ailleurs, en tenant compte de la décomposition (8.30), on trouve 
que 

AsY = AsŸr + Ass == Ass, (8.39) 


puisque les vecteurs lignes As et Yr appartiennent à des espaces 
orthogonaux. De (8.36), (8.38) et (8.39) il résulte que toute estima- 
tion sans biais linéaire de © peut être mise sous la forme 


© = (X'X)-IXY + AsYs = One + AsŸs: (8.40) 


signalons que les termes du second membre sont indépendants, 
car appartenant à des sous-espaces orthogonaux. L’optimalité de 
l'estimation de la méthode des moindres carrés découle directement 
de la représentation (8.40). En effet, la matrice des covariances 
des composantes de l'estimation de © s’écrit : 


E (ô — 0) (Ô — 0) = E (Ë — ©) (ône — ©) + 
+ EAsŸYsYsAs = (X'X)-IXEYY'X" (X'X)"1 + 
+ AsEYSYsAs = 9° (X'X) 71 + Le 


où 2% est une matrice semi-définie positive. 
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Considérons quelques exemples particuliers. 

4. Si les conditions de réalisation des observations ne varient 
pas, la fonction Ÿ (©, X) analysée ne dépendra pas de la variable 
auxiliaire X. Supposons, en particulier, que % (8) = 6, de sorte 
que y; = 0 + &;, c’est-à-dire que le problème revient à estimer un 
paramètre 6 observé avec une erreur aléatoire dont la variance est 
éventuellement égale à o° = Ve,;. Le critère de la méthode des 


moindres carrés devient dans ce cas: Q (0) — >! (y: — 0)°. Le sys- 


=i 
tème des équations normales (8.28) (qui est composé d’une seule 
équation) s'écrit 


d’où 


a | : == 
Orne = — D} Yi = y (n). 


îie= 1 


Si l’on admet de plus que l’erreur & est normale, alors l’estimation 


6,. est confondue avec l'estimation 6, du maximum de vraisem- 
blance de la moyenne d’une variable aléatoire normale. 

2. Supposons que @ = (8h, 8())", X = (20, 29), où xD = 1 
(c'est-à-dire qu'il ne varie pas au cours des observations) et que 
D (@, X) = 8'.X — 0.720 + O).22 — OM + Ha, Les ob- 
servations sont 

ya = 00 + Gr + e:. 


On demande d'estimer les paramètres 0(9 et 6% sur le vu de ces 
observations (problème d'estimation des paramètres dans un modèle 


linéaire de régression double, cf. par exemple [7]). 
Le critère de la méthode des moindres carrés s'écrit ici 


n 
Q (BK, 62) = 21 (y — 8 — 80 zi°°. 
{mi 
Le système des équations normales (8.28”) est de la forme 
n " à n 
Sn=n-0g+0 2 2; 


ñn n 
(2) _ Qt1r V (2) TE 
DIET EE 2 Ti + Omc 


i=s ii i 


(x), 


in4s 
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D viré —ny(n)-z(® (n) 
à (z(2))2—n (72) (n))° 


One = y (n)—Oiè-242 (n), 


où y (n) et 2°) (n) sont comme toujours les moyennes arithmétiques 
respectivement des variables y, . .., y, et x°’, . ei 

La méthode des moindres carrés est dév eloppée dans le détail, 
par exemple, dans [40], [114]. 

L'historique de la méthode des moindres carrés commence pro- 
bablement en 1805, date à laquelle Legendre publia son travail « Nou- 
velles méthodes de définition des orbites des comètes », travail dans 
lequel fut proposée pour la première fois la fonctionnelle (8.27°) 
en tant que critère de qualité des estimations. 

La première justification théorique de la méthode des moindres 
carrés fut donnée par Gauss en 1809 et en 1821. Dans sa forme géné- 
rale, le théorème de Gauss relatif aux propriétés des estimations de 
la se du des moindres carrés fut formulé et prouvé par Markov 
en 1912. 

Deux circonstances ont contribué à la vaste diffusion de la métho- 
de des moindres carrés dans les recherches statistiques : primo, elle 
n'implique pas la connaissance de la loi de probabilité des obser- 
vations traitées, secundo, elle est suffisamment bien élaborée sur le 
plan de sa réalisation numérique. 


8.6.4. Estimation par les statistiques « pondérées » ; censure, 
troncature des échantillons et statistiques de rang comme cas parti- 
culier de pondération. Les moments empiriques m,(n) sont toujours 
des estimations convergentes des moments théoriques respectifs mx 
si ces derniers existent (cf. $ 7.2). Mais elles ne sont pas les plus effi- 
caces pour toute population générale. Nous avons vu par exemple 
(cf. n° 8.6.1 et 8.6.2) que l'efficacité de l’estimation de la moyenne 


m d'une variable à l’aide de la moyenne empirique x (n) = m, (n) 
dépendait essentiellement du type de la population générale analy- 
sée: pour une population générale normale, elle est égale à l'unité 
(cf. exemple 8.3 au n° 8.6.1); pour une population suivant une 
loi uniforme, elle est de beaucoup inférieure à l'unité et elle est 
d'ordre n-} par rapport à l'efficacité de l'estimation 


a (n)=+ (Zmin (7) + Tmex (1) (8.41) 


(cf. exemple 8.5 au n°%5 8.6.1 et 8.6.2). Pour construire l'estimation 
(8.41) nous n'avons utilisé que deux observations: la plus grande et 
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la plus petite, autrement dit, l'estimation (8.41) fait partie des sta- 


tistiques de rang « pondérées » à OTtiy OÙ ZX eSt la i-ième obser- 


vation par ordre de grandeur croissantes wo; Son « poids » (il est évi- 
dent que dans la statistique (8.41) on a pris w, = ©, = 0,5 et tous 
les autres w; = O). 

En réalité, la loi étudiée peut ne correspondre à aucun des modè- 
les de lois décrites, par exemple, au chapitre 6, et être « à cheval » 
sur deux lois. Un procédé de description formelle d’une telle situa- 
tion a été proposé par J. Tukey (cf. [136] et n° 6.1.11) pour les lois 
symétriques (par rapport au paramètre de groupement 6): 


f(x; a; e)= (1 —Ee)p(x; a; ©“) + e-h(x; a; 8), 


où f (x; a; e) est la densité de probabilité de la variable étudiée; 
(x; a; 0°) la densité d’une loi normale de moyenne a et de varian- 
ce 0°; À (x; a; 0) la densité d’une loi (« polluante ») symétrique par 
rapport au même centre de groupement et dépendant, éventuelle- 
ment, d’un paramètre 8; € > 0 le taux de « pollution », c'est-à-dire 
le pourcentage des observations de la population générale étudiée 
qui suivent la loi de probabilité « polluante » (x; a; 6). 

Le tableau 8.1 représente les valeurs des efficacités asymptotiques 


des estimations x (7) (moyenne empirique) et %méa (2) (médiane 
empirique) du paramètre a en fonction du caractère et du taux de 
pollution de la loi analysée. Les calculs ont été effectués en combi- 
nant la méthode analytique qui utilise la connaissance de la loi de 
probabilité de æzmea (27) dans les diverses populations générales 
(cf. n° 5.6.4) et la méthode de simulation statistique sur ordinateur 
(cf. $ 6.3) sur des échantillons d'assez grandes tailles (n = 200). 

Nous remarquons que plus les ailes de la loi polluante sont « lour- 
des» (c’est-à-dire plus la densité À (x) tend lentement vers 0 à 
mesure que x s'éloigne du centre de groupement a) et plus l’efficaci- 
té de l’estimation x (#7) faiblit, tandis que la médiane empirique 
Tméa (2) affiche une remarquable stabilité de ses bonnes propriétés. 
La médiane empirique Zmea (2) Se rapporte à la classe des statisti- 
ques de rang « pondérées », c’est-à-dire des statistiques de la forme 
n 


DT z3 pour l'obtenir comme cas particulier des statistiques de 
i=1 


cette classe, il suffit d’égaler à zéro tous les poids w; à l’exception 


L] e L_] | . 
d’un (@h+1 = 1 si r est impair) ou de deux (®= = On ,,=3Sin 
2 2 un 


est pair) 
Par ailleurs, aux n° 10.4.4, 10.4.5 et 10.4.6, ainsi qu'au $ 11.9, 
on résout certains problèmes concrets d'estimation statistique de 
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Tableau 8.1 


Taux de pollution 


n° Forme de pollution Estimation 
e = 0 e=0,06| E = { 
1 = 
h (x) = x z(n) | 0,808 1 
DE Ar 
1 —(x- 68)? 
LA 2-(30)° 
* 8 2 9 
(loi normale) Tméd (*) E-nes 0,669 == 0,637 


Z(n) 1 0.682 0,500 
2 h(= Le tr-8 
(loi de Laplace) Zméd (1) B—ouss7l 0.808 1 
L = 
—— LE 
: Bo "€ z(n) 1 0,362 0 
h(z)= { E(a—30o, a+ 30]; 
3 Osizé [a—3o, 
a+ 30] 2 
(loi uniforme sur Zméd () 70,637 0,781 0,855 
{a— 30, a+ 30]) 
n z(n) | 1 | 0 | (Ù 
ET RTTE-ST 
oi de Cauchy 
Fo Tméd (n) 20,637 0,765 20811 


paramètres inconnus à l’aide des statistiques pondérées. Arrêtons- 
nous succinctement sur la description des principales approches 
faisant intervenir les statistiques pondérées et sur la classification 
de leurs types. 

Pondération des données empiriques X:...., À. Dans le cas 
général, on attribue à l'observation X; un poids w; = w (X;) > 0 
qui est défini comme une fonction de sa valeur courante. Les poids 


n 
sont généralement soumis à la condition de normalisation à w (X;) = 
im! 


i= 
= 1. En particulier, on peut traiter les moments pondérés de la 
variable aléatoire & de densité f: (À) comme les moments aussi bien 
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empiriques Ma (7, w) que théoriques my (o) *): 


my (n, ©) = 2 X®.o(X,); 


my (w)= | X*o (X) f: (X) 4X. 


Les possibilités et le contenu de cette approche sont étudiés au 
n° 10.4.6. 

Si l’on a affaire à des observations d'une variable à une dimen- 
SION Zj, + + +» Zn, le poids de chacune d'elles est défini en fonction 
de son numéro d'ordre dans une série d’observations ordonnées (par 
ordre de croissance), c’est-à-dire qu'on forme une série variationnelle 
Lta)r Tea) + + + Zn) (CË. n° 5.6.4) et à chaque terme x(;, on associe un 
poids, O;. 

On a déjà cité des exemples d'une telle pondération (qui nous a 
conduits aux statistiques de rang). D'autres variantes d’estimations 
de ce type sont envisagées aux n° 10.4.4 et 10.4.5. | 

Censure des échantillons. Cette méthode consiste à attribuer des 
poids nuls aux termes extrêmes de la série variationnelle et des poids 
identiques strictement positifs aux autres. Si les poids nuls sont 
attribués aux seules observations extérieures à un intervalle donné 
[a, b], c'est-à-dire que 


do > 0 si T(i) Cfa, b] , 
© (Zi) = 0 si za, b], 


4 
on parle alors d’une censure de type I. Il est évident que dans ce cas 
le nombre v des autres observations est une quantité aléatoire (v < 
< n). 

Si les poids nuls sont attribués à un pourcentage fixe & des plus 
petites observations et à un pourcentage fixe 6 des plus grandes, on 
parle alors d’une censure de type II de niveau (&, B). Dans ce cas, le 
nombre v des autres observations est connu à l’avance et vaut 
n (il — à — ). 

Le chercheur peut être amené à censurer de gré ou de force. La 
censure forcée est dictée par les conditions de l'expérience: si, par 
exemple, nous testons » articles à la destruction dans un intervalle 
de temps limité 7, il est évident que nous aurons affaire à une cen- 
sure de type Ï qui exclue les valeurs exactes de la durée de vie (temps 
précédant la destruction) de toutes les pièces qui n'auront pas été 
détruites durant l'intervalle T. Par ailleurs, dans la classe des esti- 


*) Si X = (rt1),..., z(P))’ est une variable multidimensionnelle, par X# 


on comprend tout produit de la forme Éoe QGirhks (2 4))}t, dans lequel 
les indices i, peuvent prendre toutes les valeurs entre 1 et p, et k, + ka +... 


TT  — 
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mations construites sur les échantillons censurés, on peut souvent 
trouver des estimations qui à défaut d'être les meilleures dans le 
cadre rigide d’une population générale d’un type donné sont caracté- 
risées par une stabilité appréciable de leurs bonnes propriétés pour 
les écarts par rapport aux hypothèses de base (cf. plus haut l’exem- 
ple relatif à la comparaison entre la moyenne empirique et la mé- 
diane). 

Troncature d’une loi. Cette situation se présente lorsque la va- 
riable aléatoire E ne peut être observée sur une partie de son domaine 
de valeurs possibles. Si, par exemple, on étudie la répartition des 
foyers en fonction du revenu et que les conditions de réalisation du 
sondage nous privent de la possibilité d'analyser les éléments dont 
le revenu est inférieur à un niveau donné a (en roubles), on dit alors 
que la loi est tronquée à gauche au point a. Contrairement aux échan- 
tillons censurés, nous n’avons même pas la possibilité d’estimer ici 
le pourcentage d’observations situées au delà du niveau de troncature. 

Dans [77], chap. 32 et [41] par exemple, le lecteur trouvera des 
renseignements très détaillés sur l'utilisation, dans les problèmes 
d'estimation statistique des paramètres, des statistiques pondérées 
et, en particulier, de rang, et des statistiques construites sur les 
échantillons censurés, ainsi que la discussion des divers problèmes de 
stabilité des estimations obtenues. 


8.6.5. Construction des intervalles de confiance (régions de con- 
fiance). Au $ 8.5 nous avons introduit la notion d'intervalle de 
confiance du paramètre inconnu © — (81, ..., A(*))’ et de région 
de confiance (pour k# => 2). Comment construire à l'aide des données 
empiriques À 1, - -., À, un domaine aléatoire AO, (X,, ..., Àh) 
qui recouvre la valeur inconnue du paramètre 6 avec un niveau de 
confiance P donné a priori? Il est évident que ce domaine doit être 


construit autour d'une estimation ponctuelle 6 de 8: quant à sa 
forme exacte et son volume, ils dépendent de la loi de probabilité 


de la variable aléatoire 6 et, en particulier, de sa fonction de ré- 
partition Fe (U; 6) qui malheureusement dépend aussi de la va- 


leur véritable inconnue du paramètre 6. 

Il existe deux méthodes pour tourner cette difficulté. La pre- 
mière consiste, si cela est possible, à construire des régions de con- 
fiance exactes AO, (X,, -.., X,) (pour toute taille finie » de l’échan- 
tillon) et à trouver des fonctions w, et #, de k variables et des cons- 
tantes de normalisation À (X,, ..., X,) et B(X;,, ..., X,) ne 
dépendant pas de ©, telles que la loi des statistiques 


Va (Xn ces Xn) = À (Xp +. Xn)-ÿ1 (8 — 0) 
ou 


b() CH) 
Va (An ses An) = BXL; ZX) be (5: °°» ] 
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puisse être décrite exactement (par exemple, à l’aide d’une loi clas- 
sique tabulée, cf. n°5 6.1.5, 6.2.1, 6.2.6) et ne dépende pas du para- 
mètre inconnu ©. 

Déterminons à titre d'exemple l'intervalle de confiance des pa- 
ramètres a et o° d’une population générale normale (cf. exemple 8.3 
au n° 8.6.1). 

On sait (cf. n° 6.2.2) que la statistique 


(z(n)—a) Vr—i 
sn) 


suit une loi de Student à r7 — 1 degrés de liberté (ici la fonction 


LA (Ô — 60) = Ô — 6, et la constante de normalisation À (Li, &<. 
..., Zn) = V nr — 1/s(n)). Donc, après avoir défini tabulairement 
les points de pourcentage d'ordre q = (1 — P}/2et 1 — q = (1 + P)/2 
de la loi £ de Student à n — 1 degrés de liberté correspondant à la 
probabilité P donnée (c'est-à-dire les points w:50a (& (7 — 1)) et 
Wioo_=4) (£ (2 — 1)), on peut affirmer, compte tenu de la symétrie 
de cette loi en vertu de laquelle w,594-9) = —Wi004 (Cf. n° 5.6.5), 
que l'inégalité : .. 

Le | 

— Wioog (t (nr — 1)) < Et—Q pat < Wiooq (£ (n— 1) 


est réalisée avec une probabilité P = 1 — 2q. Or ceci exprime que 
l'intervalle de confiance aléatoire 


Aap (x, .. Ln) = 


= [2 (7) — 4009 (4 (7 — 1))- EE 


ne S 
nn. (R) + Wioog (4 (n — 1))° es À 
recouvre la moyenne inconnue a avec la probabilité donnée P. 

Pour construire l'intervalle de confiance du paramètre 0°, on se 

2 
servira du fait que la statistique 20 suit une loi de ;*àn—1 de- 
grés de liberté (cf. n° 6.2.1). Donc, ici #, (6/6) — 6/6, et la constante 
de normalisation B (x, . .., z,) = n. Après avoir défini tabulaire- 
ment les points de pourcentage w,_, (x° (r — 1)) et w, (x° (n — 1)), 
où comme précédemment qg = (1 — P)/2 et P est le niveau de con- 
fiance donné, on peut affirmer que l'inégalité 
ua (2 (ne —1)) << avg (42 (n— 1) 

est réalisée avec la probabilité P = 1 — 2q. Ce qui exprime que 
l'intervalle de confiance aléatoire 


A0 (Lis ce. Tn) = | s2 re À (R)< uq =) | 


recouvre la valeur inconnue de la variance ©* avec la probabilité LP. 
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La deuxième méthode de construction des régions de confiance, 
plus simple et plus universelle, est basée sur les propriétés asympto- 
tiques des estimations et de ce fait fournit des résultats approchés 
qui ne la rendent utilisable que pour les échantillons d'assez grande 
taille. Cette méthode utilise le fait (cf. $ 8.4) que les estimations du 
maximum de vraisemblance et les estimations de la méthode des 
moments suivent une loi conjointe asymptotiquement normale, c’est- 
à-dire que la loi du vecteur à 4 dimensions E (nr) = V n (8 —®) tend 
vers une loi normale multidimensionnelle de vecteur des moyennes 
nul et de matrice des covariances Z (6) dépendant du paramètre 
inconnu 6. Cette méthode « pèche » sur deux points: premièrement, 
la forme asymptotique de la loi de la variable aléatoire E (7) est 
utilisée pour les échantillons de taille n finie; deuxièmement, l’esti- 


mation 6 est substituée à la valeur inconnue de 6 dans la matrice 
Z (0). 

Pour construire la région de confiance du paramètre inconnu 
6 — (81), ..., O0)", nous devons maintenant nous servir du fait 
notoire suivant (cf. [16]): si le vecteur à X dimensions E (n7) — 


— V/n (ô —8) suit une loi normale de paramètrres 0 et X (8), la va- 
riable aléatoire 


n(8—8)':2-1(8) (8 —6) 
est répartie suivant une loi du 4° à À degrés de liberté. 

Après avoir défini tabulairement les points de pourcentage 
Wi-g (X° (&)) et w, (x° (k)), où g = (1 — P)/2, correspondant à la 
probabilité P, et après avoir substitué l'estimation Ô à la valeur 
inconnue de @ dans la matrice connue Ÿ (9), on peut affirmer que 
J'inégalité 
W-q (X° (k)) < nr (8 — 8) -27 (6)-(8 — 8) <w, (x (&)) (8.42) 
est réalisée avec une probabilité 86 approximativement égale à P. 

Remarque 1. Si l’on a un seul paramètre 6 à estimer (c’est-a- 
dire si À = 1), on peut se servir directement du fait que la diffé- 


rence 6 — 6 suit une loi normale de paramètres (0, cé (8)) et au lieu 
de (8.42) écrire 

—wg (E (0, 1)) 04 (8) < 8 — 8 < wa (E (0, 1))-04 (8), (8:42) 
où w, (& (0, 1)) est un point de pourcentage 100g de la loi normale 
réduite, ps (8) la variance de l'estimation ô. De (8.42") on déduit l’in- 
tervalle de confiance 


AP (2, -.., 2) = (0 — w, (E (0, 1))-0, (6), Ê + wa (E (0, 1)) x 
x 64 (8). (8.42”) 
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Remarque 2. Si pour ô on prend des estimations ponctuelles 
du maximum de vraisemblance, la matrice des covariances X (©) du 


vecteur V nr (8 — ©) est définie sans ambiguïté par la matrice de 
Fisher (cf. $$ 8.3 et 8.4): 


Z (8) = 17 (6), 


où les éléments de la matrice Ï (6) sont définis par les relations (8.7). 

Remarque 3. La définition positive et la symétrie de la matrice 
Z conditionnent l’ellipsoidalité de la région de confiance définie 
par la relation (8.42). 

Exemple 8.8. Soit à définir sur le vu des observations x,, … 
..., Æ l'intervalle de confiance du paramètre p de Ia loi binomiale 
(cf. n° 6.1.1), c'est-à-dire de la loi d'une variable aléatoire discrète E 
de densité 


fa PN)=P {= zx} = Cp (A —p}N-x, z=0,1,..., N, 


où V >> 0 est un entier connu, p € ]0, 1[ le paramètre à estimer. 
Commençons, en vertu de la technique décrite au n° 8.6.1, par 


calculer l’estimation ponctuelle p de p par le maximum de vraisem- 


blance. 
Le logarithme de la fonction de vraisemblance s’écrit ici 


Lx, Tor +.) Tns D: N)= 
= 2 InCx+mpiD a+in(i—p) Z (N—x). 


L'équation respective du maximum de vraisemblance est 


n n 
dl 1 1 u 
4 p 2 Ti — T—p > (N — zx;) = 0. 
ii is 1 
En la résolvant par rapport à p, on obtient l'estimation du maxi- 
mum de vraisemblance 


L'indépendance des zx, et le fait que Ex; = Np et Vzr, — 


= Np (1 — p) (cf. n° 6.1.1) nous donnent 
A A 1— 
Ep=p; Vp=1e, 


En se donnant le niveau de confiance P = 0,95, en utilisant le 
fait que P — p suit une loi asymptotiquement normale et en substi- 


CH. 8. ESTIMATION STATISTIQUE DES PARAMÈÊTRES 239 


tuant P à p dans l'expression de la variance Vp, on obtient, en ver- 
tu de (8.42”), l'intervalle de confiance 


: Vis Vs 

APo.ss (T1 .. Zn) — É D 1,96——E., p + 1,96 a — . 

8.6.6. Approche bayesienne de l’estimation statistique. L'idée 
maîtresse de l'approche bayesienne consiste à utiliser dans l’esti- 
mation d’un paramètre 6 (qui peut éventuellement être vectoriel), en 
plus de l’information fournie par l'échantillon X, une information 
supplémentaire a priori sur le paramètre à estimer. On admet que le 
paramètre 6 est une variable aléatoire possédant une densité de pro- 
babilité a priori h, (8) connue du chercheur. 

La formule de Bayes (cf. n°5 4.1.3 et 4.2.2) nous permet de cal- 
culer la densité de probabilité a posteriori hk (8/X) du paramètre 6 
après les observations de l'échantillon X: 


-, __f(XTE6) 
h (6 À) où g (X) ho (8), 
où f (X | 8) est la densité de la loi conditionnelle de X sachant 8, 
c'est-à-dire la fonction de vraisemblance introduite au $ 8.2; 


g (X) = ( 1 (X 18) ho (6) d6 une constante de normalisation indé- 


pendante de 86. 

En se servant de la densité L (6 | X), on peut construire par exem- 
ple l'intervalle de confiance bayesien du paramètre 6. 

L'estimation bayesienne ponctuelle de 8 est la moyenne calculée à 
l'aide de la loi a posteriori: 


Op, (X)= Eo (8 | X}= | 6h (8 | X) d6. (8.43) 


Signalons une importante propriété de l’estimation Ô D. Soit £ (X) 
une estimation dépendant de l'échantillon X. On appelle risque baye- 
sien a posteriori la quantité 


M4 (X) = Ee [(0— +1 (X)}2 | XI = | (0—#(X))2(8] X) d6. (8.44) 


L'estimation 63, en tant qu'espérance mathématique de la réparti- 
tion conditionnelle de 6 pour X donné minimise M}; (X), et la va- 
leur de Y,; (X) est simplement la variance de la répartition a poste- 
riori *). Des propriétés de l'espérance mathématique conditionnelle 


(cf. n° 5.6.7) il s'ensuit que 0, minimise le carré moyen complet de 


*) Une approche plus générale définit les estimations bayesiennes à partir 
de la condition de minimum d’intégrale de type (8.44). mais avec une fonction 
de perte w (| 0 — t (X) |) qui est susceptible d'être différente de la fonction 
quadratique, cf. [141]. 
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l'erreur, c'est-à-dire que 


68, = Arg min M}, 
t 


Mi = Ex (M, (X)]=Es (M, (8)]; l 
Mi(8)=Ex{[(8—#(X))21| 6], 
et l'erreur M; (X) est définie dans (8.44). 


On obtient l’autre estimation bayesienne Ôp, en choisissant la 
valeur de 6 qui maximise la densité conditionnelle a posteriori 
h (6 | X): 


(8.45) 


A 


Op, = Arg max h(8 | X), (8.46) 


c'est-à-dire l'estimation du maximum de vraisemblance « corrigée » 
par la présence de la densité a priori h, (0). Si f (X | 8) et À, (0) sont 


assujetties à des conditions assez faibles, les deux estimations 6: et 


03, convergent lorsque nr — œ vers l’estimation du maximum de 
vraisemblance indépendamment du choix de la densité a priori h, (8). 
Exemple 8.9. Soit à estimer la probabilité inconnue p dans une 


suite d'épreuves de Bernoulli sur le vu des résultats de n épreuves 
indépendantes. Pour loi a priori de p, prenons une loi B (cf. n° 6.2.6) 
de densité 


+ 


al (4 — b-—1 
ho(p)= ER 0<p<tf. 


Supposons. que » épreuves aient donné lieu à r succès. La densité a 
posteriori est alors 


k (p/r) ” pa+tr-1 (1 p}otn-r-1 


B(a+r, b+n—r) ? 


c'est-à-dire est la densité d'une loi B avec d’autres paramètres. En 
prenant l'espérance mathématique de la loi de densité À (p/r), on 
obtient l'estimation bayesienne 


= a+r 
PB— a+b—+n ? 


qui diffère de l'estimation ordinaire r/n. 

Exemple 8.10. Etudions le cas d’un paramètre scalaire discret 0. 
Le passage au cas continu décrit plus haut n'apporte de toute évi- 
dence aucune complication. Supposons, pour fixer les idées, que le 
paramètre O0 ne peut prendre que deux valeurs: 6, = 0 et 6, = 1. 
La répartition a priori est définie par les probabilités a priori q; pour 
les valeurs 6; (i = 1, 2). Supposons qu'on ait réalisé une observation 
X (c'est-à-dire qu'on ait obtenu un échantillon composé d’une seule 
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observation). La répartition a posteriori du paramètre 0 sera alors 


… De gif (X 1 6=0) : 
HO aATE= 0) Fa NT 0 1) : 


h(8—1[]X)—1—h(8=01] X). 
En se servant de (8.46), on obtient l'estimation bayesienne 
x 4 si hk(8—1/X) > hk(0—0 | X); 
Usa — O si h(8—=1/X)<h(8—0 |] X). 


En fait, nous avons obtenu une règle de classification de l'observation 
X dans l’un ou l’autre de deux ensembles de fonctions de répartition 
a priori p (X) = f(X [8 = 0) et pp: (X) = f (X | 8 = 1) appelée 
règle de décision par le marimum de la probabilité a posteriori. La règle 
(8.47) est équivalente à la règle suivante: 


8 “. si f(X|1)/f(X 10) > g/q:: 
BB | O si f(X11)//(X10)<q/q. 


La quantité f (X | 1}/f (X | 0) s'appelle rapport de vraisemblance 
(cf. $ 9.3). 


L'estimation 8 8, (la règle de classification par le maximum de la 
probabilité a posteriori) est optimale en ce sens qu'elle minimise la 
probabilité moyenne de l'erreur de classification 


Pec = DP (10) + qP (011), 


où P (1 | 0) est la probabilité d'estimer à tort le paramètre 8 égal à 1, 
alors qu'en réalité il est égal à O (la probabilité P (0 | 1) s’interprète 
de la même manière mutatis mutandis). 

Le champ d'application de l'estimation bayesienne est limité 
par le fait que la justification du choix de la loi a priori est très com- 
SL et n'’admet probablement pas de solution satisfaisante (cf. 
39)). 

Dans bien des cas, on peut toutefois disposer d'une certaine in- 
formation sur la forme de la loi a priori à quelques paramètres incon- 
nus près qui peuvent être estimés sur le vu de l’échantillon en même 
temps que le paramètre 6. Cette approche s'appelle approche baye- 
sienne empirique. 

Considérons maintenant une importante classe d’estimations di- 
tes estimations du minimazx qui permettent de se passer de toute hy- 
pothèse sur la répartition a priori. Soit t (X) une estimation de 8. 
Si la répartition a priori de 6 est connue (par exemple la densité 
k, (8) est donnée), le carré moyen complet de l'erreur M, est défini 
par (8.45). De la relation (8.45) il s’ensuit que M} atteint son mini- 
mum pour t — Es (0 | X], de sorte que si la répartition a priori est 
connue, le problème d'estimation se résout jusqu’au bout. 


16—0273 


(8.47) 
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Supposons maintenant que h, (8) est inconnue. Pour mesurer la 
qualité des estimations, on peut se servir de la quantité Sup M; (6), 
c'est-à-dire de la plus grande erreur possible. 

En termes de sup M,» (8), une estimation £* est ee. qu une 

6 


estimation é si 
sup M,» (8) < sup M} (8). 
e ) 


Le principe de minimazx régit le choix de l'estimation t* pour 
laquelle sup M;+ (8) est minimal. Si une telle estimation existe, alors 
8 


sup Me (0) < sup M} (8) pour tous les t  t* 
a 8 


et l'estimation t* s'appelle estimation du minimazx. Même si l’esti- 

mation du minimax peut être la moins bonne dans une grande partie 

de l’espace des paramètres, son avantage est que le supremum de 

son erreur est < au supremum de l'erreur de toute autre estimation. 
Exemple 8.11. L'estimation minimax de la probabilité inconnue 

p Ft le schéma d'épreuves de Bernoulli de l'exemple 8.2 est ([51], 
11) 


= (r + Vn/2)/(n + Vn). 


Les problèmes liés à l'approche bayesienne d’estimation sont 
examinés en détail dans les travaux [39], [141]. 


Conclusions 


1. Un problème majeur de l'analyse statistique d’un système 
réel consiste à calculer (en fonction des données statistiques) les 
meilleures valeurs approchées (les estimations statistiques) d'un ou de 
plusieurs paramètres numériques caractérisant le fonctionnement de 
ce système. La possibilité d'obtenir des approximations « fonction- 
nelles » par le traitement statistique d’une partie seulement de la popu- 
lation générale analysée (c'est-à-dire d’un nombre restreint d'obser- 
vations ou d’un échantillon) tient à la remarquable propriété de 
stabilité statistique des caractéristiques empiriques (cf. $ 7.2). 

2. L'’estimation statistique se construit sous forme d’une fonc- 
tion des observations et, par nature, est une variable aléatoire. Si 
l'on extrait un autre échantillon parent et que l’on porte les nouvel- 
les valeurs empiriques dans la « fonction-estimation », on obtient en 
général une autre valeur approchée du paramètre estimé, autrement 
dit, les valeurs de l'estimation se dispersent de façon incontrôlable 
d'une expérience à l’autre (ici, d’un échantillon à l’autre). 

3. La principale mesure de la précision d’une estimation statisti- 


que À du paramètre inconnu 8 est l’écart-type de © par rapport à ©, 
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c’est-à-dire E ( — 6}, et, dans le cas multidimensionnel, la matri- 


ce des covariances, des composantes de l'estimation vectorielle ©. 
Il est évident que plus cette quantité (ou la dispersion généralisée de 


l'estimation Ô dans le cas multidimensionnel) est petite, plus l’esti- 
mation est précise (efficace). Pour une vaste classe de populations 
générales, il existe une inégalité (l'inégalité de Rao-Cramer-Fréchet 
(8.12), (8.13)) qui définit le minimum A, (sur toutes les estima- 


tions possibles) de l’écart-type E (Ô — 6)° qu'il est impossible d'amé- 
liorer. Il est logique d’adopter ce minimum Afin Comme origine de 
la mesure de l'efficacité d’une estimation en définissant l'efficacité 


e (ô) de toute estimation Ô du paramètre par le rapport 


e ô) — Loin à 
E (b—0)° 


4. La convergence de l'estimation 8 (cf. $ 8.1) assure sa stabilité 
statistique, c’est-à-dire sa convergence (stochastique) vers la véri- 
table valeur du paramètre 0 à mesure que la taille x de l'échantillon, 
sur le vu duquel cette estimation a été construite, croît. La propriété 


d'une estimation Ô d'être sans biais (cf. $ 8.1) exprime que la moyen- 
nisation de toutes les valeurs possibles de cette estimation, obtenues 
sur le vu d'échantillons parents de même taille, nous conduit à la 


véritable valeur du paramètre estimé, soit E06 = 6. Mais il n’est pas 
recommandé de rechercher toujours la réalisation de cette propriété: 
de peu de valeur pour les échantillons d'assez grandes tailles, elle 
risque d'appauvrir considérablement la classe des estimations dans 
laquelle on recherche la meilleure. 


9. Vu que l'estimation 6 du paramètre inconnu 8 est une variable 
aléatoire, il n’est pas sans intérêt de construire des intervalles entiers 
A6 et, dans le cas multidimensionnel, des régions entières, qui avec 
une probabilité P proche de l’unité et donnée à l’avance recouvrent 
la véritable valeur du paramètre estimé 6, c’est-à-dire que 


P {8€ Ah (8)} = P. Ces intervalles (resp. régions) s'appellent in- 
tervalles (resp. régions) de confiance. Il existe deux méthodes de 
construction de ces intervalles (resp. régions): une méthode exacte, 
qui ne passe que pour une étroite classe de situations, et une méthode 
approchée asymptotique, plus répandue dans les applications statisti- 
ques; cf. n° 8.6.5. 

6. Les principales méthodes de construction des estimations sta- 
tistiques sont : 

la méthode du maximum de vraisemblance (cf. n° 8.6.1); 

la méthode des moments (cf. n° 8.6.2); 


16* 
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la méthode des moindres carrés (cf. n° 8.6.3); 

une méthode utilisant les observations « pondérées » : la censure, 
la troncature, les statistiques de rang (cf. n° 8.6.4). 

Les diverses variantes de la méthode des observations « pondé- 
rées » font de plus en plus recette pour la stabilité des inférences sta- 
tistiques par rapport aux éventuels écarts entre la loi réelle de la 
population générale étudiée et la loi modèle postulée. 

7. La présence d’une information a priori sur le paramètre estimé 
6, permettant d'associer à chaque valeur possible de 8 une mesure 
probabiliste de sa certitude, c’est-à-dire des renseignements sur la 
loi de probabilité a priori du paramètre estimé, permet de préciser 
considérablement les estimations obtenues par les méthodes tradition- 
nelles (méthode du maximum de vraisemblance, méthade des mo- 
ments, etc.) en l'absence de cette information. Ces estimations sont 
construites par la méthode bayesienne (cf. n° 8.6.6) et sont dites baye- 
siennes. 


CHAPITRE 9 


TEST D’HYPOTHÈSES STATISTIQUES 


La nécessité de formuler et de tester certaines hypothèses sur la 
nature ou la valeur des paramètres inconnus du schéma stochastique 
étudié se présente à divers stades de l’estimation statistique. Le 
chercheur avance, par exemple, l'hypothèse : « les observations ana- 
lysées sont extraites d’un mélange de deux populations générales 
normales » ou encore « le vecteur des valeurs moyennes À = (at, 
a%, ..., ar) des observalions étudiées est égal au vecteur nul 
0 = (0, 0, ..., 0)’ », etc. On désignera les hypothèses par la lettre 
H. Notre objectif est de vérifier si l'hypothèse Æ ne contredit pas 
les données empiriques. 

La comparaison de l'hypothèse émise aux données empiriques 
X,, X2, -.., X, est conduite à l’aide de tel ou tel test et s’appelle 
test de l'hypothèse statistique. 

Le résultat de cette comparaison peut être soit négatif (les données 
empiriques contredisent l'hypothèse avancée et il faut alors y renon- 
cer), soit positif (les données empiriques confirment l'hypothèse 
émise et celle-ci peut alors être prise pour éventuelle solution). À no- 
ter que si le résultat est positif, cela ne veut encore pas dire que notre 
hypothèse est la meilleure et la seule possible : tout ce qu'on peut affir- 
mer, c'est qu'elle ne contredit pas les données empiriques et il peut très 
bien exister d'autres hypothèses jouissant de cette propriété. De sorte 
qu'une hypothèse Æ même statistiquement vérifiée n'est pas un 
fait absolu acquis une fois pour toute, mais seulement une proposi- 
tion vraisemblable ne contredisant pas l'expérience. 

Les hypothèses statistiques sont de plusieurs types. Passons-les 
en revue. 


9.1. Principaux types d’hypothèses testées 


9.1.1. Hypothèses relatives au type de loi de probabilité de la 
variable aléatoire étudiée. Quand on traite les observations 


Re (9.1) 


de la variable aléatoire étudiée E, il est très important de saisir le 
mécanisme de formation des valeurs empiriques X;, c’est-à-dire de 
sélectionner et de justifier une certaine fonction de répartition modè- 
le Frog (À) (par exemple, parmi celles décrites au chapitre 6) qui 
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permette de décrire de façon adéquate la fonction de répartition 
F; (À). À ce stade de l'analyse, cela revient à éprouver des hypothè- 


ses du type 
H: Fi; (X) = log (À); (9.2) 


où la fonction modèle hypothétique peut être définie soit de façon 
unique (auquel cas F; (X) = F, (X), où Fo (X) est une fonction 
entièrement connue), soit comme une fonction d'une famille paramé- 
trique (auquel cas Fa (À) = F (X ; 6), où 6 est un paramètre de 
dimension X inconnu mais susceptible d’être estimé sur le vu de l’é- 
chantillon (9.1) à l’aide des méthodes développées au $ 8.6). 

La vérification des hypothèses (9.2) est réalisée à l’aide des 
tests d'ajustement et se base sur les diverses mesures de différenciation 


entre la fonction de répartition empirique analysée Fe (X) et la 
fonction modèle hypothétique Fa (X) (cf. $ 11.1). 


9.1.2. Hypothèses d’homogénéité de deux ou plusieurs échantillons 
ou de certaines caractéristiques des populations analysées. Les plus 
typiques des problèmes de cette nature sont caractérisés par la situa- 
tion suivante. Supposons qu’on dispose de Z « tranches » de données 
empiriques de type (9.1): 


Na Le ce ne (9.3) 


Ces tranches auraient pu se former de façon naturelle au cours 
d’un sondage (par exemple, elles auraient pu être enregistrées à des 
dates et en des lieux différents). En désignant par F} (X) la fonction 
de répartition des observations du j-ième échantillon et en attribuant 
lejmêème indice à toutes les caractéristiques empiriques et théoriques 


de cette loi (les moyennes a; (n;) et a;; les variances 05 (n;) et oi, 


etc), on peut mettre les principales hypothèses d'homogéneité sous la 
forme : | 


Hr: F1 (X)=P(X) =... = F;(X); (9.3a) 
Ho: ==... =u,,; (9.3b) 
Ho ==... = 01. (9.3c) 


Si le résultat du test de ces hypothèses est positif, on dit que les 
caractéristiques empiriques correspondantes (par exemple, a; (r), 


do (ne), - - -, ay (nu)) sont non significativement différentes. 
Signalons le cas particulier des hypothèses (9.3a) où le nombre des 

échantillons ! = 2 et l’un des échantillons est composé d’un petit 

nombre d'observations (une, pour fixer les idées). Sous cette forme, 
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tester des hypothèses (9.3a) revient à tester l’anomalie d’une ou de 
plusieurs observations. Les tests des hypothèses de type (9.3a), (9.3b) 
et (9.3c) sont décrits aux $$ 11.2 et 11.5. 


9.1.3. Hypothèses concernant les valeurs numériques des para- 
mètres de la population générale étudiée. Supposons, par exemple, 
que les observations (9.1) sont des valeurs d'un paramètre d’un ar- 
ticle, obtenues par des mesures effectuées sur » articles tirés au ha- 
sard dans la production en série d'une machine et soit a, la valeur 
nominale de ce paramètre. Chaque valeur X; peut naturellement 
différer de la valeur nominale a,. [l est évident que pour vérifier 
que cette machine est correctement réglée, il faut s'assurer que la 
valeur movenne du paramètre des unités produites par cette machine 
correspond à la valeur nominale, c'est-à-dire éprouver une hypothèse 
du type 

H : EË = &. (9.4) 


Nous sommes conduits à une hypothèse de cette nature si l’on 


tente de vérifier que le coefficient de corrélation empirique r (x, 
z®), construit sur l'ensemble des observations à deux dimensions 
Xi = (xi, x), i = 1, 2,...,n (cf. n° 5.6.7), diffère statisti- 
quement de façon non significative du zéro. Compte tenu de la carac- 


téristique théorique envisagée, cette hypothèse peut être mise sous 
la forme 


H: r(x%, 2%) = 0. (9.4') 


Dans le cas général, les hypothèses de cette nature sont de la 
forme : 


H,: 0 = À (9.4) 


où © est un paramètre dont dépend la loi étudiée, À, le domaine de 
ses valeurs hypothétiques concrètes, domaine qui peut très bien 
n'être composé que d'un point. 

Le n° 11.2.4 est consacré à l’un des cas particuliers des hypothèses 
(9.4”): au test de l'hypothèse B, = 0 (c'est-à-dire au test de la sy- 
métrie de la loi). Les hypothèses d' indépendance et de stationnarité des 
observations (cf. plus bas n° 9.1.5, ainsi que le $ 11.3) se ramènent 
au type (9.4”). 


9.1.4. Hypothèses concernant le type de dépendance entre les 
composantes de la variable multidimensionnelle étudiée. Autant 
dans l'étude de la loi de probabilité des observations traitées il est 
important de choisir correctement le modèle de loi correspondant 
(cf. n° 9.11), autant dans l'étude de la dépendance statistique, par 
exemple de la composante 1° par rapport à la composante xt, 
soit À = (20), z°)", il est important de tester l'hypothèse concernant 
la forme générale de cette dépendance. Par exemple, l'hypothèse que 
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zx et xt sont reliées par une relation de régression linéaire (cf. 
n° 8.6.3, ainsi que le $ 3.5), soit 


H: E (2% | = x) = bo + br, (9.5) 


où à, et b, sont des paramètres inconnus du modèle. 
Les tests statistiques utilisés pour éprouver les hypothèses de type 
(9.5) sont souvent appelés tests d'adéquation (cf. par exemple [7]). 


9.1.5. Hypothèses concernant l’indépendance et la stationnarité 
des observations traitées. La question de savoir si l’on peut traiter 
des observations (9.1) comme indépendantes ou à la rigueur sta- 
tionnaires, c'est-à-dire suivant la même loi tout au long du sondage, 
n’est pas dénuée de sens dans la mesure en effet où elle conditionne 
le choix de la meilleure méthode de traitement de ces observations. 
Les hypothèses correspondantes peuvent être formalisées en fonc- 
tion des objectifs de l’analyse, par exemple comme suit: 


H:Exr,; = a = const, i = 1, 2,.:..:, nn: (9.6) 
H: rx, tin) =0, i=1,2,...,n—1î, (9.6”) 


c'est-à-dire qu'à strictement parler les hypothèses de ce type peuvent 
être traitées comme un cas particulier d'hypothèses (9.4”). Les tests 
correspondants sont décrits dans le $ 11.3. 


9.2. Principe logique général d’un test statistique 


Les tests statistiques diffèrent considérablement par leur finalité 
et le caractère des problèmes résolus. Mais ils sont tous construits 
suivant le même principe logique que l'on peut décrire de la manière 
suivante. 

1. On avance une hypothèse A. 

2. On définit le seuil de signification & du test. En effet, toute 
décision statistique, c’est-à-dire toute décision prise sur la base 
d’un nombre fini d'observations est adoplée avec un certain risque 
d'erreur dans un sens comme dans l’autre. Dans un nombre « peu 
élevé de cas, l'hypothèse #, peut être rejetée alors qu'elle est vraie 
(on parle d’un risque (ou d’une erreur) de première espèce) et, inver- 
sement, dans un nombre $ peu élevé de cas, elle peut être adoptée alors 
qu'elle est fausse, la vraie étant une hypothèse concurrente Æ, (on 
parle d’un risque (ou d’une erreur) de deuxième espèce). En fixant la 
taille de l'échantillon, on peut choisir à notre convenance la proba- 
bilité de l’un ou l’autre de ces risques. Si l’on peut accroître autant 
que l'on veut le volume de l'échantillon, on peut rendre arbitraire- 
ment petites les probabilités des risques & et B pour toute hypothèse 
concurrente À,. En particulier, si le volume de l'échantillon est fixe, 
on se donne généralement la probabilité & de rejet à tort de l’hypo- 
thèse H,, appelée souvent hypothèse de base ou nulle. Cette proba- 
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bilité de rejet à tort de l’hypothèse de base s'appelle seuil de signifi- 
cation ou encore niveau du test. Le choix de la valeur du seuil de si- 
gnification & dépend de la comparaison des pertes subies en cas de 
décision erronée dans un sens ou dans l’autre: plus les pertes entrai- 
nées par le rejet à tort de Æ, sont lourdes et plus & doit être pris 
petit. Mais comme cette comparaison est dans la plupart des cas 
très difficile à réaliser (souvent, il est difficile de dire dans quel 
sens l’erreur est la plus dangereuse), on fait appel en général à cer- 
taines valeurs standards du seuil de signification. Ces valeurs sont : 
a = 0,1; 0,05; 0,025; 0,01 ; 0,005; 0,001. La plus répandue de ces 
valeurs est la valeur & — 0,05. Elle exprime qu'en moyenne dans 
5 % des cas nous rejetterons à tort l'hypothèse avancée. 

3. Soit donnée une fonction des observations +) — y (X,, . .. 
.... Àh) (appelée statistique critique). Comme toute fonction des 
observations, la statistique critique y”) est une variable aléatoire 
(cf. $ 8.1) qui, si F/, est vraie, suit une loi de probabilité bien étu- 
diée (tabulée) de densité f.(m) (u). 

Le principe de construction de la statistique critique (dit prin- 
cipe du rapport de vraisemblance) est décrit au paragraphe suivant. 
Etudions dans les grandes lignes la signification de cette statisti- 
que : en principe, elle mesure le désaccord entre les données empiri- 
ques (9.1) et l'hypothèse testée Æ,. Ainsi, dans les hypothèses envi- 
sagées au n° 9.1.1, la statistique critique y"? mesure la différence 


entre la fonction de répartition empirique F(" (X) et la fonction 
modèle hypothétique F,o4 (ZX). Dans les hypothèses du n° 9.1.2, la 
quantité y mesure l'écart entre les caractéristiques empiriques 
dans les divers échantillons ; dans les hypothèses du n° 9.1.3. enfin, 
elle rend compte de l'écart entre les caractéristiques empiriques et 
leurs valeurs théoriques, etc. 

4. Dans les tables de la répartition de densité f.{1) (u), on repère 


le point é- de pourcentage 100 1—+.) et le point SU de 


pourcentage 100a&/2 (cf. $ 5.6). Ces points subdivisent le domaine des 
valeurs possibles de la variable aléatoire +”) en trois régions (cf. 
fig. 9.1): la région (1) des valeurs invraisemblablement petites, la 
région (III) des valeurs invraisemblablement grandes el, enfin. la 
région (11) des valeurs vraisemblables ou naturelles (sachant que l'hy- 
pothèse H, est vraie). Si l’on craint que les erreurs qui entachent 
l'hypothèse avancée soient unilatérales, c'est-à-dire que les valeurs 
de la statistique critique sont seulement « trop grandes » ou seule- 
ment « trop petites », on ne cherchera qu'un seul point de pourcen- 
tage : soit le point y®in) de pourcentage 100 (1 — «&) qui partagera 
le domaine des valeurs de +") en deux régions : une région de valeurs 
invraisemblablement petites et une région de valeurs vraisembla- 
bles; soit le point y"2x) de pourcentage 1004 qui divisera le domai- 
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ne des valeurs de y”) en deux régions : une région des valeurs invrai- 
semblablement grandes et une région des valeurs vraisemblables. 

5. Enfin, on porte les données empiriques X,, . .., À, dans la 
fonction y et on calcule la valeur prise par y"). Si cette valeur 
appartient à la région des valeurs vraisemblables, l'hypothèse H, 


fy(n) (u) 


7 er 1 JR u 


Fig. 9.1. Représentation graphique de la densité de la statistique critique y, 
et mise en évidence des régions d acceptation (77) et de rejet (7 et ZT), sachant 
que /J, est vraie | 


ne contredit pas les données empiriques. Dans le cas contraire, 
c'est-à-dire si y est trop petite ou trop grande, on conclut que 
y ne suit pas la loi de densité fin) (u) (il est aisé de comprendre 
que cette conclusion est établie avec une probabilité d'erreur égale 
à a), ce qui exprime que notre hypothèse H, est fausse et il faut 
donc y renoncer. 

Donc, la décision suggérée par un test statistique peut être fausse 
aussi bien dans le cas où l'hypothèse A, est rejetée (avec une probabi- 
lité a) que dans le cas où elle est acceptée (avec une probabilité 6). Les 
probabilités & et B des décisions fausses s'appellent respectivement 
risque (ou erreur) de première et de deuxième espèce, et la quantité 
1 — B, puissance du test. Il est évident que de deux tests caractérisés 
par un même risque de première espèce «, on préférera celui dont le 
risque de deuxième espèce B est plus petit (ou dont la puissance est 
la plus grande). 

Si l'hypothèse H, consiste à conjecturer que la valeur d'un para- 
mètre © est très exactement égale à une valeur donnée 6, (cf. plus 
haut les hypothèses envisagées au n° 9.1.3), on dit alors qu'elle est 
simple. Dans tous les autres cas, elle est multiple. 


9.3. Construction d’un test statistique ; 
principe du rapport de vraisemblance 


Voyons comment obtenir ces fonctions d'observations (les sta- 
tistiques critiques y) sur le vu des valeurs desquelles on décide 
si l'hypothèse testée correspond ou non aux valeurs empiriques (9.1). 
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9.3.1. Essence du principe du rapport de vraisemblance. Pour 
comprendre le principe général qui conduit à la construction des 
meilleurs (des plus puissants pour un seuil de signification donné) 
tests, revenons à l'exemple du salaire (cf. n° 8.6.1) et à la figure 8.2. 
Dans cet exemple, on a étudié la loi lognormale du salaire & de per- 
sonnes actives prélevées dans une certaine population avec les don- 
nées initiales suivantes (les salaires de trois personnes sondées): 
z1 = 190 roubles; x, = 175 roubles et x; = 205 roubles. Soit à 
tester l'hypothèse (simple) concernant la moyenne de la variable 
aléatoire normale In E: 


H,:Eln E = 5,240 = &, 


l'hypothèse concurrente étant 


Hi: ElmEë = 5,443 = a. 


On voit sur la figure 8.2 que l’hypothèse A, ne contredit pas les 
données initiales (bien plus, ces données sont plus vraisemblables 
pour l'hypothèse ,, alors qu'elles sont peu vraisemblables si A, 
est vraie). 

Dans le cas général, on se fait une idée de la vraisemblance des 
observations X,, ..., X, (relativement à l'hypothèse testée et à 
l'hypothèse concurrente) en comparant les fonctions de vraisemblan- 
ce respectives (cf. formule (8.5)), plus exactement, en composant leur 
rapport 


je Lin are Xn 10) 
Lars Rs 0) 


es L(X:; “ss An : 6:) 
— LA: Xn 00)? 


où Ly, et Lx, Sont les valeurs des fonctions de vraisemblance des 
observations XÀ,, ..., À, calculées sous la condition que soient 
vraies respectivement les hypothèses Æ,: 6 = 6, et X,: 6 = 6, 
Il est évident que plus les observations sont vraisemblables dans le 
cas de l'hypothèse ,, plus la fonction de vraisemblance L}, prend 
des valeurs élevées et plus la quantité y(" est petite. Si fym (u) est 
la densité de probabilité de la statistique y(") sachant que l'hypothe- 
se A, est vraie, la construction d'un test de l'hypothèse A, de niveau 
a donné revient à déterminer le point y. de pourcentage 100 de la 
loi de densité fyn, (u) et à mettre en œuvre la règle suivante: 
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si y > y l'hypothèse ÆH, est rejetée avec un risque a, 
puisque, conformément à la loi de densité fn) (u) et sous 
réserve que l’hypothèse 7, soit vraie, l’événement {y > ,} 
peut se réaliser avec la probabilité &, c'est-à-dire que 


l (9.8) 


fytn) (u) du=a; 


d eg 


si Y)<LY,, l'hypothèse FH, est acceptée. 


Les tests basés sur les statistiques y”) de la forme (9.7) et sur la 
procédure (9.8) s’appellent tests du rapport de vraisemblance. Ces 
tests sont préférés aux autres pour leur réalisabilité et les propriétés 
suivantes (qui sont valables dans une classe assez vaste de situations, 
cf. par exemple [40)). 

1. Les tests du rapport de vraisemblance sont les plus puissants 
(lemme de Neyman-Pearson). 

2. La densité fyen (u) de la loi de probabilité de la statistique 
critique y") se calcule généralement sans peine à partir de la fonc- 
tion de vraisemblance Z de la variable aléatoire analysée. 

La généralisation du problème de test de l’hypothèse concernant 
la moyenne d’une variable aléatoire normale Ë (sachant que la va- 
riance 0° est connue) nous donne 


La, = L(z, se Tn5 Op =L(tzi ..., En; ay, 0°) = 


1 
I "Go à (ira; 


Pl (j=0, 1), 


EL 
(2x) * 0" 
de sorte que 


n 
Ly __1 à [Cx;-a1)-(x,— a0)°] con _ 
== e 207 i=1 = 0 ” 
Ho 


Lo 
FE 


2 

où c=Vn (a— a) —. Supposons pour fixer les idées que 
a > & (dans l’exemple ci-dessus nr = 3; 0°—0,16; a; = 5,443 
et ap — 5,240). Alors c > 0, et si l’on pose 


Va —= Ar D 

où Q (a) = 100-2x % et ua est le point de pourcentage 100Q de la 
loi normale réduite, l'inégalité 

en _ 1e 


e è > ve 
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sera réalisée sur l’ensemble des échantillons (x,, . . ., z,) tels que 
Vr (x (7) — &@o) _ > UQ(uyr OU, Ce qui revient au même, 


. O 
z (n) > 40 + Ua) V5: 


Cette règle de test de l'hypothèse ne dépend pas de la valeur con- 
currente du paramètre a,, donc est la plus puissante (eu égard au 
lemme de Neyman-Pearson) pour toutes les valeurs concurrentes 
possibles du paramètre a, >> a, on dit encore qu'elle est uniformément 
la plus puissante. 


9.3.2. Test d’une hypothèse simple par le logarithme du rapport 
de vraisemblance. Supposons qu'on sache que des observations 
X,,..., À, peuvent être traitées comme un échantillon indépen- 
dant prélevé dans une population générale dont la fonction de ré- 
partition appartient à une famille de fonctions de répartition 
F (X; 6), où © est un paramètre à # dimensions. On demande de 
tester l'hypothèse © = 6, (hypothèse (9.4) du n° 9.1.3). Considé- 
rons le test 


Pas 


900 = —2 In {L(X,,..., Xnz O0)L(X,, ..., Xn: O)}, (9.9) 


où © est une estimation (introduite au n° 8.6.1) du maximum de vrai- 
semblance du paramètre 6 sur le vu des observations X,, ..., X,. 
Si l’on impose à la famille F (X ; 6) et à la valeur ©, des conditions 
supplémentaires garantissant la réalisation des bonnes propriétés des 
estimations du maximum de vraisemblance (cf. n° 8.6.1), la va- 


riable ve suivra asymptotiquement (pour 7 —- oo) une loi du 7° à 
k degrés de liberté (cf. n° 6.2.1). 


À titre d'exemple d'application du test y("), revenons au problè- 
me du test de l'hypothèse concernant la moyenne d’une population 
normale, envisagé au n° 9.3.1. Dans ces notations, en tenant compte 
du fait que l'estimation du maximum de vraisemblance du paramètre 


LL 
— 1 : 
do et x = — S, zi, on obtient 
i=1 


n n - 
D) = ia) 5 Gi) pr y 
V 2 >. PE > 202 = n (x o) 162. 
imi i=1 
Comme x est une variable aléatoire normale de moyenne a, et de va- 
: O2 2:22: | Ré : à : 
riance — , il s'ensuit que y) est une variable du 4° à un degré de 
liberté. 


À titre de deuxième exemple, considérons le test de l'hypothèse 
Ho: Pi = Pois i = 1, 2, ..., l, concernant les valeurs des para- 
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mètres Dj, P+, - - -, pi de la loi polynomiale du n° 6.1.4. Vu que les 
estimations du maximum de vraisemblance du paramètre p; sont les 
rapports v; (n})/n (cf. n° 8.6.1), il s’ensuit que la variable 


l 
y" ) — 2 à VE (n) (In V; (n) — In n Poi) 


EE 


suit une loi asymptotique du x* à ! — 1 degrés de liberté. 


9.3.3. Test d’une hypothèse multiple. Considérons une modifi- 
cation du test (9.9) pour le cas où dans l'hypothèse sont concrétisés 
une re seulement des paramètres. Supposons que © = (6,, 

-, 01) est le vecteur des paramètres inconnus de la loi et que l hy- 
pothèse est 

Hnr0,= 0 js: TEL. (9.10) 


Il est commode de diviser le vecteur © en deux parties: 6, — 


= (0,, ..., 0,) et 6, = (6,,,, .- . ., 0,). Désignons par 6, l'esti- 
mation du maximum de vraisemblance de 6, sur le vu de X,, ... 


, Xh Sachant que 6, = @,, et par (8), 6.) l'estimation du ma- 
ximum de vraisemblance de (6,, 8.). Le test de l'hypothèse Æ,, est 
défini par la statistique 


V9 = —2In {L(X1, +, Xa5 Oo OeVL (Ka - + ++ Xn 3 On O2)}- 
(9.11) 


On démontre que la quantité y" suit asymptotiquement (lorsque 
n — oo) une loi du 4° à r degrés de liberté si sont remplies des condi- 
tions supplémentaires assurant la réalisation des bonnes propriétés 
des estimations du maximum de vraisemblance (cf. n° 8.6.1). 


9.4. Critères de « qualité » d’un test statistique 


Les critères définissant la précision d’un test statistique d’hy- 
pothèses simples ou multiples de type (9.4”) sont: 

« (9) la probabilité de rejeter l'hypothèse de base H, sous réserve 
que la véritable valeur du paramètre « testé » soit 6; la quantité 
1 — « (0) s'appelle caractéristique opérationnelle du test, quant à la 
valeur « (6,) dans le test de l’hypothèse simple H,: 0 = 6,, ce 
n'est autre que le niveau de ce test (le risque de première espèce); 

B (6) la probabilité de rejeter l’hypothèse concurrente (de l’hy- 
pothèse de base) sous réserve que la véritable valeur du paramètre 
« testé » soit égale à O6; la quantité 1 — B (©) s'appelle puissance 
(ou fonction de puissance) du test, quant à B (@,), ce n’est autre que 
le risque de deuxième espèce dans le problème du test de l'hypothèse 
simple H,: 6 = ©, contre l'hypothèse concurrente H,: 6— 6,. 
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Discutons ces caractéristiques et les propriétés du test qui en dé- 
pendent. 

Soient [, le domaine des valeurs possibles de la statistique criti- 
que y(), le et Hi: les régions, décrites au $ 9.2, respectivement 
des valeurs « vraisemblables » et « invraisemblables » de +") (sa- 
chant que l’hypothèse H, est vraie). Il est alors évident que 


Zn (6) = Pe {709 É TF1} — | Î,,n) (u, 6) du; 
ri1 


Bn (©) = 1— an (8) = Pe {NV ETR = | fem (ui 6) du, 


ro 


( 
| 
| 
( 

(9.12) 


où Pe {A} et fyen (u; 6) sont respectivement la probabilité de 
l'événement À et la densité de probabilité de la statistique critique 
y), calculée sous 1 hypothèse que la véritable valeur du paramètre 
testé soit égale à ©. 

Dans le cas d'hypothèses paramétriques de la forme (9.4”) au 
seuil de signification &, donné, le test {y("), TH}est dit sans biais si 


€n (0) <a@ pour tous les 6E€A,; 
An (O0) > pour tous les 6 é A,. 


Enfin, le test {y(), He} est dit convergent si lim «a, (0) = 1 
Ti > 00 
pour tous les 6 A. 

La dernière relation exprime, en particulier. que la puissance 
1 — BP, (6) du test convergent tend vers l'unité (lorsque #7 — co) 
pour toute valeur © n’apparlenant pas au domaine A, des valeurs 
hypothétiques (correspondant à l'hypothèse H,) du paramètre. 

De (9.12) il s'ensuit visiblement que pour toute taille n fixe de 
l'échantillon, la modification du test dans le sens d’une réduction du 
niveau & (c'est-à-dire la restriction du domaine lÂ:) est liée à un 
accroissement simultané du risque de deuxième espèce et, dans le 
cas général, à une réduction des valeurs de la puissance 1 — B (©) 
(puisque dans ce cas la région l'Æ° de rejet de l'hypothèse concurrente 
FH, s'élargit). Réciproquement : la modification d’un test (dans toute 
classe fixe de tests, y compris dans la classe des tests les plus puis- 
sants) dans le sens de l'accroissement de sa puissance est liée (pour nr 
fixe) à une inévitable augmentation simultanée de son niveau. 

Dans le même temps, en faisant croître indéfiniment la taille 
de l’échantillon (c est-à-dire en faisant tendre 7 —+ co), on peut faire 
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prendre aux risques 
ah (0*), où G*EA CA, ou 
* — 
| max «&, (0) ; 
6€ Ao 


B, (0**), où 6**{A,, ou 
| max 8, (6) 
6& 4o 


des valeurs aussi petites que l’on veut. 

Pour les échantillons de grande taille (c'est-à-dire asymptotique- 
ment par rapport à 7 — ©), il existe des relations liant entre elles 
les caractéristiques a&*, B* et x (cf. par exemple [77]). Appesantis- 
sons-nous sur une relation utile qui nous permettra, en particulier, 
de déterminer la taille x (&«, B; p) d'un échantillon dans un test du 
maximum de vraisemblance (de Neyman-Pearson) entre deux hypo- 
thèses simples : 


H,: l'échantillon est extrait d'une population 
générale de densité f (X ; 6); (9.13) 

H, : l'échantillon est extrait d’une population 
générale de densité f (X ; 6;) 


avec des risques de première et de deuxième espèces, inférieurs respec- 
tivement à des valeurs données «& et B (la quantité p = p (H,, H;) 
caractérise la « distance » entre les hypothèses 4, et H, et est dé- 
f(X ; 6) : 

rase) MA 
— f(X; 6)]dX, où l'intégration est étendue au domaine tout 
entier des valeurs possibles de la variable aléatoire X, f (X ; 8) sa 
densité de probabilité). Dans [5], on prouve que dans une classe 
assez vaste de cas, quand on procède à des tests entre des hypothèé- 
ses simples voisines (c’est-à-dire pour de petites valeurs de p), on 
peut se servir de la formule (asymptotique) approchée 


finie par la formule p (45, A) = | In 


2 
n(a;p; pe Crete (9.14) 


dans laquelle u, est comme toujours le quantile d'ordre q de la loi 
normale réduite (cf., par exemple, tableau 1.3 dans [27]). 

Remarque. Attirons l'attention du lecteur sur l'apparition iné- 
vitable de deux effets « néfastes » à la théorie des tests d’hypothèses 
statistiques : les effets « trop petite taille » et « trop grande taille» 
de l'échantillon. 

L'effet « trop petite taille » de l'échantillon consiste en ce qui 
suit : si le niveau «& du test est donné et si le nombre » d observations 
sur le vu desquelles est prise la décision est petit, la puissance du 
test, c’est-à-dire la probabilité de rejeter l’hypothèse de base X, 
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à juste titre, est très petite (la formule (9.14) nous donne une idée 
approximative de l’interdépendance des quantités &, B et nr). Il 
existe deux remèdes à cette situation : soit augmenter la taille nr de 
l'échantillon, soit augmenter un peu le niveau &, ce qui entraïnera 
une diminution de f (c’est-à-dire un accroissement de la puissance 
1 — B). 

Pour expliquer l'effet « trop grande taille» de l'échantillon, 
nous ferons appel à une réflexion de Berkson (Journ. Amer. Statist. 
Assoc., 33 (1938), p. 526): « Personne en réalité n'estime qu'une 
hypothèse se réalise exactement : nous ne faisons que construire un 
modèle abstrait d'événements réels qui dans une certaine mesure 
s’écarte nécessairement de la vérité. Mais nous constatons qu'un 
échantillon de très grande taille infirme dans ce cas presque süre- 
ment (c’est-à-dire avec une probabilité qui tend vers l'unité lorsque 
n croît indéfiniment) *) notre hypothèse pour tout niveau & donne. » 

On dirait un cercle vicieux : pour les échantillons de faible taille, 
les conclusions ne sont pas fiables statistiquement, pour les échan- 
tillons de trop grande taille, le résultat est connu sans ambiguïté 
à l'avance. Les auteurs de cet ouvrage ont plus d’une fois été les 
témoins amusés de la perplexité, dans laquelle l'effet des grands x 
jetait les chercheurs qui tentaient au moyen d'un test de trouver 
une loi modèle F,,4 (x) convenable pour décrire la population gé- 
nérale étudiée et qui aboutissaient invariablement au résultat con- 
traire (c'est-à-dire au rejet de l'hypothèse avancée). 

Pour éviter l'effet des grands n, il faut relier les caractéristiques 
de précision du test (le niveau « et le risque de deuxième espèce f) 
à la taille nr de l’échantillon : le gain en « sensibilité » du test, réali- 
sé grâce à l’accroissement de », doit être utilisé pour réduire aussi 
bien & que $. En particulier, si &« diminue lorsque n croît, les petits 
écarts par rapport à H, ne conduiront déjà plus au rejet obligatoire 
de cette hypothèse: la probabilité de ce rejet dépendra de la « vi- 
tesse » de décroissance de & (lorsque 7 croit). 


9.5. Procédure séquentielle de prise de décision 
(tests séquentiels) 


9.5.1. Procédure séquentielle d’observation. Si le nombre d’ob- 
servations, sur le vu desquelles le statisticien est appelé à prendre une 
décision, n’est pas fixé à l’avance mais est tributaire des résultats enre- 
gistrés à chaque étape de l’expérience, on dit qu'on utilise une pro- 
cédure séquentielle d'observation. Vu que les résultats des observa- 
tions à chaque étape de l’expérience constituent un échantillon aléa- 
toire de la population générale, donc, sont aléatoires, l'instant 


*) Ceci résulte de la propriété du test d’être sans biais (cf. plus haut). 
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d’arrèt des observations (qui dépend de ces résultats) est aussi une 
variable aléatoire. 

L'idée d'utiliser la procédure séquentielle d'observation est 
apparue pour la première fois au cours de l'établissement des plans 
économiques de contrôle statistique par échantillonnage de la qualité 
d'une production *). Il s'agissait de vérifier sur un échantillon que 
le pourcentage p de pièces défectueuses produites en série ne dépas- 
sait pas un certain niveau p, (le niveau limite tolérable). Les auteurs 
du travail cité ont proposé à cet effet une procédure de contrôle 
par un double échantillonnage. Dans une première étape, ils ont 
prélevé un échantillon de taille », dont ils ont déterminé le pourcen- 


tage p, (n.1) de pièces défectueuses. La décision de contrôler un deu- 
xième échantillon se prend sur le vu du résultat obtenu :’en gros, si 


le pourcentage p, (n,) de pièces défectueuses dans le premier échan- 
tillon est bien plus petit (ou bien plus grand) que le niveau limite 
Po, il n'est point besoin de considérer un deuxième échantillon et 
l’on accepte l'hypothèse p < p, (resp. l'hypothèse concurrente 


P > Po); Si le pourcentage p, (».) diffère peu du niveau p, (ou com- 
me on dit encore se trouve dans la « région d’indifférence » ou 
« région d'’indétermination »), on prend la décision de poursuivre 
les observations et, en particulier, de prélever un deuxième échantil- 
lon de taille 72. 

Cette méthode fournit un gain appréciable (en moyenne) sur le 
nombre d’observations nécessaires pour tester les hypothèses à un 
niveau & et une puissance 4 — B donnés par rapport au test de Ney- 
man-Pearson qui est le meilleur (le plus puissant, cf. n° 9.3.1) de 
tous les tests basés sur la procédure classique d'observation (c'est-à- 
dire sur des échantillons de faille n donnée a priori). Donc, la procé- 
dure séquentielle d'observation s'impose lorsque chaque observation 
est d’un coût élevé ou d'accès difficile et à condition que le chercheur 
soit en état de mettre cette procédure en œuvre (ce qui n’est pas tou- 
jours le cas). 

Aux caractéristiques & (©) et B (6) de la qualité d'un test (cf. 
$ 9.4) il faut ajouter dans le cas d'un test séquentiel la faille moyenne 
de l'échantillon Eev(a, B) nécessaire pour vérifier les hypothèses de la 
forme (9.4”) avec des caractéristiques (œ, B) données. 


9.5.2. Test séquentiel du rapport de vraisemblance (test de Wald) 
et ses propriétés. La construction d’un test statistique dans le cas 
où la taille » de l’échantillon est fixée (cf. n° 9.3.1) revient à parta- 
cer le domaine des valeurs possibles de la statistique critique (") — 
— y (X,,..., X,) en deux régions: la région des valeurs vraisem- 
blables et la région des valeurs invraisemblables (sachant que l’hypo- 


*) Dodge H.F.. Romig H.G. À method of sampling inspection. — The Bel] 
System Tech. Journ., 8 (1929). 613-631. 
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thèse de base À, est vraie). Si une valeur donnée de y (X,. - .., X,) 
tombe dans la région des valeurs invraisemblables, l'hypothèse de 
base est rejetée. 

Les tests séquentiels, c'est-à-dire les Lests basés sur une procédure 
séquentielle d'observation, sont construits 2 le même principe à une 
distinction près: pour chaque valeur v = 1.2, ...,n,n —+ 1, 
de la taille de l’échantillon, le domaine F", des valeurs possibles de Ja 
statistique critique % (X1, - -., À.) est partagé en trois régions dis- 
jointes: la région l'H° des valeurs vraisemblables, la région FH: des 
valeurs invraisemblables, la région l$ des valeurs douteuses (sachant 
que l'hypothèse H, est vraie), c'est-à-dire que 


= UD UTS S=h2. 


A chaque pas v de la procédure séquentielle d'observation, c’est- 


a-dire De avoir enregistré les observations X,, ..., XL. v = 
= 1, 2,..., on prend une décision en se fondant sur la règle sui- 


vante : 
i V(X1, --., X,) ET on accepte l'hypothèse A: 

si y (X1, -.., X+) € li on rejette l'hypothèse A, (ou on ac- 
cepte une hypothèse concurrente H,); 

si V(X:1, --., X,) € V9 le problème reste ouvert jusqu'à la 
(v + 1)-ième observation (pour cette raison, la région l$ est appelée 
région d’indétermination ou encore région de poursuite des observa 
tions). 

Donc, la concrétisation d'un test passe par la détermination: 
a) du type de l'hypothèse de base; b) de la méthode de construction 
de la statistique critique y (X1, . .., X,); c) de la méthode de cons- 
truction des régions [Æ°, FH: et TS en fonction des caractéristiques 
données du test. 

Comme exemple de test séquentiel, considérons le test du rapport 
de vraisemblance de Wald [140] entre deux hypothèses simples de la 
forme (9.13). 

La statistique critique de ce test est définie pour la suite d'obser- 
vations indépendantes X,, ..., À. par la relation 


y) = In f(X15 O1)... f(Xv; 0:) —_ 
F(X 13 80) -.. f(Xv; O0) 


= 5 fee. v=1,2,... (9.15) 


Les régions des valeurs vraisemblables (l'#e), invraisemblables (T'Æ:) 
et douteuses (T$) de la statistique critique y(*), sachant que Æ, est 
17« 
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vraie, sont définies approximativement par les relations: 
Ho __ ; p - 
VV — {v . VN< In 1—" ; 9 


M {pi > —È)} (9.16) 


œ 


ri={y:in P <YM< In —E). 


1— a (2 

Wald et Wolfowitz [140] ont prouvé l’optimalité de ce test sé- 
quentiel, plus exactement : de tous les tests entre les hypothèses 
(9.13) avec des risques de première et de deuxième espèce inférieurs à 
des valeurs respectives «& et B données, le test (9.15), (9.16) implique le 
plus petit nombre moyen d'observations Es, v (&«, B) que l'hypothèse 
H, (i = 0) ou l'hypothèse 77, (i = 1) soit vraie. Wald a estimé 
[140] que son test était environ deux fois plus économique (quant au 
nombre d'observations) que le meilleur des tests classiques: le test 
de Neyman-Pearson. Mais, en 1959, S. Aïvazian a établi des formules 
asymptotiquement (par rapport au rapprochement indéfini des hy- 
pothèses testées) exactes pour Ee, v (&, B) [5]: 


__ 2o(a, B) . _ _20(B. 7) _ 
RD Rp oa 


1—2 z 


+ zin — set p (Ho, Hi)est la 
« distance » entre les hypothèses testées (cf. $ 9.4), qui ont permis, 
la formule (9.14) aidant, à comparer les bonnes propriétés des tests de 
Wald et de Neyman-Pearson : 


où (x, y) = (1 — zx) In 


Eo,Y (&. B) & (x, B) LL. | 

na, B; 0)  :(ui-a +u1-p)° = 0 (e, b); 
Ep, V(&, B)  w(B. &) à. 
na, B; p) (ui-o+ui1-8)? 0 (ba 


Le tableau 9.1 représente les valeurs de la fonction w (&, B) cer- 
respondant aux risques de première et de deuxième espèce les plus 
souvent utilisés. 

Sur ce tableau on voit que le gain en observations fourni par le 
test de Wald par rapport au test de Neyman-Pearson est de 2 à 3 fois 
supérieur et peut ètre bien plus élevé pour certaines combinaisons 
des risques (on démontre, en particulier que, lim œ& (x, fB) = 

a=p-0 
= lim o(B, a)= +). 

a=fp—0 

9.5.3. Test séquentiel généralisé entre hypothèses multiples. Le 
test de deux hypothèses multiples de la forme A,: 8€ A, et H,: 
6 € À, où 6 est un paramètre (généralement, de dimension {) dont 
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Tableau 9.1 


0,2 | 0,1 10,0510,0210,0110,005/0,002]/0,00110,0005/0,0002]/0.0001 


0,58710,605/0,616/0,62810,63510,64010,646|0,650 
0,508/0,53410,55510,575/0,58710,59710,60910,610 
0,643410,46610,48910,514/0,52910,54310,55810,567 
0,35410,38810,41510,443/0,46010,47510,49310,504 
0,30710,34210,36910,39810,41610.43210,45010,462 
0,269/0,30410,33110,36010,37910,39510,41410,426 
0,23010,26410,29810,32010,33810,35510,37410,386 
0,20710,23710,26610,29510,31310,32910,34810,361 
0,18810,22010,24510,27710,29110,30810.32610,339 
0,16710,19810,223/0,250/0.26710,28310,30210,314 
0,15410,18410,208/0,235/0,25210.,282/0,28610,298 


0,660 
0,637 
0,594 
0,536 
0,+96 
0,+86 
0,422 
0,397 
0 5 
0,349 
0,333 


dépend la loi de probabilité de la variable aléatoire étudiée, et A, et 
A, des régions disjointes de valeurs possibles de cette variable, se 
ramène à un test entre deux hypothèses simples de la forme (9.13). où 
©, et ©, sont des points (« convenablement » choisis) respectivement 
de À, et A,. 

Mais dans cette position du problème, le test de Wald ne jouit 
plus de ses bonnes propriétés, car la vraie valeur du paramètre testé peut 
être égale à une valeur « intermédiaire » Q* (comprise entre 6, et 
@), et le nombre moyen des observations Ee,v (&, B) n'est minimal 
que si 0 — 6, ou 6 = 6),. 

Dans [6] on propose une méthode approchée de construction d’un 
test séquentiel généralisé optimal (TFSGO) d'hypothèse de la forme 
(9.13) dans le cas où la vraie valeur du paramètre est susceptible 
d’être égale à 6*, où 6* 6, et 6* Æ @,. L'optimalité de ce test 
traduit le fait que de tous les tests entre des hypothèses FH, et A, de 
risques de première et de deuxième espèce respectivement inférieurs 
à des valeurs « et B données, il est celui qui donne lieu au plus petit 
nombre moyen d'observations dans la situation la « plus défavora- 
ble », c'est-à-dire à la plus petite valeur de max Eeo v (&, B). La sta- 

8 


tistique critique du TSGO est définie comme dans le test de Wald 
par la relation (9.15). Les régions d'acceptation de l'hypothèse A, 
(la région lH-), d'acceptation de l'hypothèse FH, (la région l'Æ:) et de 
poursuite des observations (la région lŸ) sont définies par les rela- 


tions : 
TV = Jy: << —c k = Pet 
on min(x. B) | 


Hi . {n) VO (Ho. H:) F 
v ={viv PAT (! 0e Sn (min TA 5) }} , (9.17) 
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s{ri-0(1- 5m) << 
<a (1— memes 8 )}> 
où €, et c, sont des nombres strictement positifs approchés grossière- 
ment respectivement par 2 In L et 21n FT 
Si l'on considère les domaines TH; et TŸ dans le plan (v, y), 
on constate que dans le test séquentiel de Wald leurs frontières sont 
définies par les droites ("= —In = 


et y% = In IÈ qui sont 


parallèles à l'axe horizontal, tandis que dans le TSGO, leurs fron- 
tieres sont deux droites SONÉONEANLES se coupant au point v* = 
= 775 "8 In Rrr. Ceci exprime, en particulier, que le 
TSGO est un test séquentiel tronqué, c'est-à-dire tel que le nombre v 
d'observations auquel il donne lieu est inférieur à un seuil v* 
donné. Le TSGO est décrit en détail dans [6]. 


Conclusions 


1. La procédure de confrontation de l'hypothèse avancée par le 
chercheur sur la nature ou la valeur des paramètres inconnus du 
système stochastique envisagé, aux résultats des observations par tel 
ou tel test s'appelle test statistique de cette hypothèse. 

2. Les hypothèses peuvent porter sur 

la forme générale de la loi de probabilité de la variable aléatoire 
étudiée ; 

l'homogénéité de deux ou plusieurs échantillons; 

les valeurs numériques des paramètres de la population générale 
étudiée ; 

la forme générale de l interdépendance des composantes de la va- 
riable aléatoire multidimensionnelle étudiée ; ’ 

l'indépendance et la stationnarité de la série d'observations. 

3. Le principe de construction d'un test statistique est le suivant : 
a) on définit le type de l'hypothèse de base; b) on propose et on 
justifie la forme de Ia fonction d'observations (la statistique critique 
y) sur le vu des valeurs de laquelle on prend la décision finale; 
c) on indique une méthode de définition, dans le domaine des valeurs 
possibles de la statistique critique y”), de la région l'A: de rejet de 
l'hypothèse de base #,, telle que soit satisfaite la condition portant 
sur la valeur du risque de l'hypothèse Æ, (c'est-à-dire du niveau & 


du test). 


4. La « qualité » d'un test se juge à son niveau &, sa puissance 


1 — B, sa propriété d'être sans biais et sa convergence. Si un test est 
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convergent, on peut rendre les erreurs de première et de deuxième 
espèce (x et B) aussi petites que l’on veut uniquement en faisant 
croître le nombre r# des observations, sur le vu desquelles on prend 
la"décision. Si le nombre n des observations est fixe, seule l’une des 
erreurs &« ou B peut ètre rendue aussi petite que l’on veut, l’autre 
étant amené à croître inévitablement. 

5. Lorsque la taille z de l'échantillon est fixée, on peut, en plus 
de la procédure classique d'observation, utiliser une procédure sé- 
quentielle, dans laquelle à chaque observation on prend l'une des 
trois décisions suivantes: « accepter l'hypothèse H,», « rejeter 
l'hypothèse Æ, », « ne pas prendre de décision et poursuivre les ob- 
servations ». Ceci étant. la prise de décision dépend des résultats des 
observations précédentes, et le nombre v des observations effectuées 
avant la prise de décision est une variable aléatoire. 

6. Les tests séquentiels optimaux du rapport de vraisemblance 
(le test de Wald, le test séquentiel généralisé, etc.) sont les plus 
économiques quant au nombre d'observations nécessaires pour véri- 
fier l'hypothèse de base avec une précision (x, f) donnée. Les recher- 
ches ont montré que les tests séquentiels permettent de réduire de 
deux, trois et même quatre fois le nombre d'observations nécessaires 
par rapport aux tests optimaux classiques. 


QUATRIÈME PARTIE 


TRAITEMENT STATISTIQUE PRIMAIRE 
DES DONNÉES 


CHAPITRE 10 


STATISTIQUE DESCRIPTIVE 


10.1. Dossier de l’analyse ; introduction et mémorisation 
des données ; inspection des données 


10.1.1. Dossier d’étude. Mème si les recherches statistiques sont 
peu volumineuses et non itératives, les efforts dépensés pour une 
description exhaustive et opportune des fichiers utilisés et de toutes 
les étapes de l’analvse statistique sont rapidement compensés. Une 
préparation précoce et soignée du dossier d'étude évite de nombreux 
désagréments. Les grosses études statistiques sont conduites collecti- 
vement, la composition de l'équipe des chercheurs subit souvent des 
modifications, le traitement des données recueillies est échelonné 
dans le temps et implique des retours en arrière pour tester les 
hypothèses avancées en cours d'analyse. Dans de nombreuses recher- 
ches (notamment médicales) on assiste à une mise à jour permanente 
des données initiales. C'est dire qu'une organisation intelligente 
du dossier devient un élément capital pour un bon passage du « té- 
moin » dans la course au résultat final. Attardons-nous succincte- 
ment sur certains aspects de ce processus. 

Identification de l’analyse, des fichiers, des variables et des 
méthodes d’investigation. A chacun de ces éléments il est souhaitable: 
d'associer : 1) un identificateur (un nom ou un matricule) abrégé qui 
apparaîtra à chaque sortie; 2) un identificateur complet qui figurera 
essentiellement dans les comptes rendus, mais que l'on retrouvera 
parfois dans les fichiers de sortie lorsque l'identificateur abrégé 
risquera de prèter à équivoque; 3) un plan succinct de travail indi- 
quant les liens entre les divers fichiers, les conditions de recueil ou 
d'élaboration de ces fichiers, une méthode d'obtention. de mesure ou 
d'enregistrement des variables, les sources des méthodes d'investi- 
gation. Les descriptions sont utilisées essentiellement pour l’élabo- 
ration des comptes rendus et parfois dans les commentaires destinés 
à faciliter l'intelligence de certaines sorties ; 4) l'indication pour les 
variables seulement de l'intervalle de variation ou des valeurs prises, 
cette information devant nécessairement être utilisée à l’entrée pour 
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le contrôle des données et à la sortie, pour l'élaboration des tableaux 
de sortie. 

Si en cours d'analyse certains fichiers sont privilégiés ou si de 
nouvelles variables sont introduites, il est nécessaire de les décrire 
avec le même soin que les principaux fichiers et variables. 

A l’étape actuelle du développement du logiciel, l'automatisation 
de la documentation est réalisée par des procédés relativement simples. 
et permet de résoudre de très importants problèmes, lels que le con- 
trole des variables d'entrée; la « lisibilité autonome » de tous les. 
tableaux délivrés; un meilleur dépistage des erreurs de description, 
l'élaboration plus aisée des comptes rendus. 

Par ailleurs. il serait souhaitable d'introduire dans l'ordinateur 
ou dans des cartes spéciales : les formes d'analyse (les programmes) 
et les sous-fichiers auxquels elles ont été appliquées; le degré de dé- 
pendance des diverses variables, de validité de la prédiction, de per- 
tinence de la projection des objets dans un espace de moindre dimen- 
sion, etc.: les adresses des sorties respectives, ainsi que des commen- 
taires textuels concernant aussi bien la logique et le cours de l’ana- 
lyse que les divers listings. 


10.1.2. Introduction et stockage des données. L'introduction des. 
données s'opère soit par des cartes perforées, soit par visualisation 
des variables codées, soit enfin par visualisation de la liste des va- 
leurs possibles de la variable, ou comme disent les informaticiens. par 
visualisation du « menu ». Les deux derniers procédés permettent de 
détecter momentanément les fautes graves introduites. L’introduc- 
tion du menu demande beaucoup de temps. Le menu doit décrire. 
automatiquement les variables. Les données doivent être stockées de 
façon à être facilement corrigeables et complétables. 


10.1.3. Inspection des données. Il est très important de bien ré- 
diger les données recueillies et de les passer au peigne fin avant de- 
les soumettre au principal traitement statistique. Les erreurs affec- 
tant les données peuvent conduire à des résultats insolites parfois 
interprétables, parfois non, mais invariablement faux. 

L'inspection des données a pour but 

1) de dépister les erreurs grossières dans le dictionnaire des va- 
riables, ainsi que les erreurs commises lors du codage, de la perfora- 
tion des cartes et de l'introduction des données dans l'ordinateur ; 

2) de signaler les éventuels dépassements ou observations anoma- 
les qui risquent de ne pas être représentatives de la population étu- 
diée (pour plus de détails, voir $ 11.5); 

3) de donner une idée approximative des lois à une dimension et 
partiellement à deux dimensions. 

Voici quelques méthodes destinées à faciliter l'inspection des 
données. 

Le listing des données introduites dans l'ordinateur sous forme: 
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d’un tableau des objets rangés, parfois selon la valeur d un caractère. 
Ce faisant, on s'assure que des erreurs grossières n’ont pas été com- 
mises lors de la définition de l'échelle des données. que l'identifica- 
tion de l'analyse et des variables est correcte et facilement lisible, que 
les données sont exhaustives et non redondantes et, enfin, que les 
valeurs numériques des variables ou de leurs codes tombent bien 
dans l'intervalle prévu. L'inspection de variables rangées par colon- 
nes permet de localiser immédiatement les erreurs grossières. Si be- 
soin les colonnes peuvent être visualisées sur un écran. Mais un lis- 
ting bien rédigé est un important document de référence pour ré- 
pondre aux questions susceptibles de se poser aux étapes ultérieures 
de l'analyse. 


Construction des lois à une dimension. Si l'ordinateur construit 
l'histogramme (cf. $ 10.3), il est commode de remplir ses colonnes 
avec les numéros des observations. Si les observations sont trop 
nombreuses, il faut mentionner à part les numéros des observations 
qui ont dépassé les quantiles d'ordre 0,05 et d’ordre 0,95. 

Il est commode d indiquer les numéros des observations sur les 
listings à deux dimensions. Si plusieurs observations tombent en un 
même point, on note cette coïncidence par un signe spécial sous le- 
quel on imprimera les numéros de ces observations. Les listings à 
deux dimensions sont précieux pour l'établissement de conjectures 
préliminaires sur les relations entre les variables. 

Les problèmes mathématiques soulevés par la construction des 
fonctions de répartition empiriques sont traités au $ 10.3. 


10.2. Echelles de mesures 


Chaque mesure d'un objet est réalisée dans une certaine échelle. 
Les coordonnées d'un vecteur d'observations peuvent être exprimées 
dans des échelles différentes. Au $ 5.1 on a cité un exemple de vecteur 
d'observations (tableau 5.1) dont les premières coordonnées expri- 
ment un état, une qualité (milieu social de la famille, sexe et pro- 
fession du chef de famille, qualité des conditions de logement), 
alors que les autres sont des nombres (le nombre des membres de 
la famille, le nombre d enfants. le revenu moyen annuel, etc.). Les 
propriétés de ces échelles diffèrent fortement. Ainsi, à propos du sexe 
du chef de famille. on peut dire qu'il est ou masculin ou féminin 
et que le sexe masculin est différent du sexe féminin; à propos des 
conditions de logement, qu'elles sont ou ne sont pas les mêmes et 
que certaines conditions sont meilleures que d’autres; à propos des 
dépenses, qu'une famille dépense plus, moins ou la même somme 
pour son alimentation qu une autre, on peut faire la différence des 
dépenses, le rapport des dépenses. 
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On décrit plus bas les principaux types d’échelles et les méthodes 
mathématiques d'unification des données mesurées dans des échelles 
différentes. 


10.2.1. Echelle nominale. Cette échelle n'est utilisée que pour 
ranger un individu ou un objet dans une classe déterminée. Si les 
classes et les règles de classification sont définies a priori, on parle 
d’une échelle catégorisée, sinon, d'une échelle non catégorisée. Le sexe 
est un exemple d'échelle catégorisée : à chaque individu on associe la 
lettre 7 ou la lettre F, le nombre 1 ou le nombre 2 ou encore un 
signe spécial. En fait, on aurait pu utiliser d’autres lettres et chif- 
fres, l'essentiel est que la correspondance entre les codes soit biuni- 
voque. Pour introduire les données catégorisées, il est commode d'uti- 
liser le « menu », c'est-à-dire la liste des éventuelles catégories avec 
leurs codes. Le nom, le prénom, la date de naissance sont des exem- 
ples de variables nominales non catégorisées. 

Une autre source importante de variables nominales non catégo- 
risées est indiquée au $ 5.3. C’est le cas où l'observation porte sur un 
couple d'objets et la variable indique seulement si ces objets appar- 
tiennent ou non à une même classe sans spécifier laquelle. Cette situa- 
tion n’a rien d'étonnant. Certes, si les classes sont définies à l'avance 
et si la classification ne pose pas de problème, il faut indiquer à 
quelle classe appartient l’objet étudié. Mais parfois ces classes ne 
sont pas données a priori et la classification des objets est le but de 
l'analyse. On peut, par exemple, parler de l'évolution « proche » ou 
« semblable » d'une maladie chez deux personnes, bien que l'on ne 
connaisse pas intégralement le tableau clinique de cette maladie. 
Bien plus, la connaissance de formes voisines d une maladie peut ser- 
vir de point de départ à la description du processus morbide. Ceci est 
valable aussi pour les groupes socio-économiques, etc. 

Üne mème variable peut remplir des fonctions différentes. Par 
exemple, la variable nominale non catégorisée : le nom du program- 
me, ne sert qu à identifier un programme et peut être trouvée par 
une simple inspection de la liste de tous les programmes. Si les pro- 
grammes sont classés d'une manière ou d'une autre (par exemple, 
par ordre alphanumérique), le nom d un programme revêt le carac- 
tère d'une variable ordinale. À propos de deux noms, on dira qu ils 
sont confondus ou que l'un précède l’autre dans cette méthode d'or- 
donnancement. L'ordre de succession change avec la méthode d'or- 
donnancement. 

Les opérations arithmétiques sur les variables nominales sont 
dénuées de sens. Donc, ni la médiane ni la moyenne arithmétique ne 
peuvent être utilisées comme mesure cohérente de la tendance cen- 
trale. Le mode convient mieux en l'occurrence. 


10.2.2. Echelle ordinale. Dans l'échelle ordinale, les classes 
sont rangées selon le degré d'expression d'un caractère donné. À cha- 
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que classe on associe un symbole de telle sorte que l’ordre des sym- 
boles et celui des classes se correspondent. Les classes seront rangées 
dans l'ordre de croissance numérique si on leur associe des nombres ; 
dans l’ordre alphabétique, si on leur associe des lettres ; selon la va- 
leur des mots, si on leur associe des mots. Au $ 5.3 on cite un exemple 
d'échelle ordinale pour la description des conditions de logement à 
quatre modalités (classes): « mauvaises », « satisfaisantes », « bon- 
nes ». « très bonnes ». On aurait pu très bien numéroter ces classes 
avec les nombres 1, 2, 3, 4 ou 4, 3, 2, 1 ou leur associer les lettres a. 
b, c, d, etc. 


Comme autres exemples d'échelles ordinales citons : en médecine. 
l'échelle Miasnikov des divers degrés de l'hypertension, l'échelle 
Strajesko-Vassilenko-Lang des formes de l'insuffisance cardiaque, 
l'échelle Fogelson de l'insuffisance coronarienne; en minéralogie, 
l'échelle Moos qui classe les minéraux d’après leur dureté en attri- 
buant 1 au talc, 2 au gypse, 3 à la calcite, 4 à la fluorine, 5 à l’apa- 
tite, 6 à l'orthose, 7 au quartz, 8 à la topaze, 9 au corindon et 10 au 
diamant ; en géographie. l’échelle de Beaufort qui classe les vents en 
« calme », « faible », « doux », etc. 


La structure d'une échelle ordinale n'est pas modifiée par les 
transformations biunivoques des codes qui préservent l'ordre. Comme 
dans les échelles nominales, les opérations arithmétiques perdent leur 
sens par une transformation des échelles ordinales, donc il est pré- 
férable de ne pas s'en servir. On démontre sans peine que si l’on 
raisonne uniquement en termes d échelles, les seules statistiques 
autorisées, quand on a affaire à des échelles ordinales, sont Îles ter- 
mes d'une série variationnelle [107]. 


10.2.3. Echelles quantitatives. On appelle échelle d'intervalles 
une échelle qui exprime de combien un objet se distingue d'un autre 
par le degré d'expression d'un caractère donné. Pour se donner une 
échelle d intervalles, il faut déterminer les objets correspondant au 
point initial et l'unité de mesure, et. ensuite, associer à chaque objet 
un nombre indiquant de combien d'unités de mesure cet objet se dis- 
tingue de l'objet de référence. Un exemple classique d'échelle d'in- 
tervalles est l'échelle Celsius, où 0° est pris pour point initial et où 
l'unité de mesure est 1°. 

La structure d’une échelle d’intervalles est invariante par les 
applications linéaires de la forme y = ax + b, a > 0. Cette appli- 
cation déplace l’origine de bunités et multiplie l'unité de mesure 
par a. 


Par exemple, l'applicationy — SZ + 32, où x est la température 


en degré Celsius, permet de passer de l'échelle Celsius à l'échelle 
Fahrenheit. 
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Si l'origine de l'échelle d'intervalles est le zéro absolu, on a la 
possibilité d'exprimer combien de fois une mesure est contenue dans 
une autre. Une telle échelle s'appelle échelle des rapports. L'échelle 
des rapports est justiciable de transformations de la forme y = ax, 
a > 0. La plupart des échelles utilisées en physique sont soit des 
échelles d’intervalles (pour mesurer les températures, l'énergie po- 
tentielle, etc.), soit des échelles des rapports (pour mesurer le temps, 
la masse d’un corps, la charge, les distances). 

Vu que les échelles quantitatives sont justiciables de transfor- 
mations arithmétiques, la moyenne arithmétique peut être utilisée 
pour agréger les données. 


10.2.4. Unification des données. A chaque type d'échelle est 
associée une technique de traitement statistique. Ainsi, pour les va- 
riables mesurées dans une échelle nominale on peut se servir du test 
du %° pour les lois polynomiales, du test du ÿ*, pour s'assurer de 
l'absence d associations dans les tableaux de contingence. du test des 
hypothèses concernant les valeurs du paramètre de la loi binomiale. 
Si l'échelle est ordinale, on applique des méthodes utilisant les rangs 
(corrélation des rangs, tests non paramétriques d'hypothèses de la 
forme F (x) < G (x), etc.). Dans le cas d’une échelle d’intervalles, 
on peut mettre en œuvre l'arsenal tout entier des méthodes sta- 
tistiques. 

Par ailleurs, on a élaboré des procédures statistiques pour les 
cas où les coordonnées des vecteurs observés sont mesurées dans des 
échelles différentes. Un exemple typique est l'analyse de variance 
{cf. $ 3.5), dans laquelle les facteurs sont mesurés dans une échelle 
nominale et les sorties correspondant à leurs combinaisons, dans une 
échelle d’intervalles. 

Cependant dans de nombreuses méthodes statistiques et notam- 
ment dans les méthodes modernes de l'analyse multidimensionnelle, 
on admet que les données sont mesurées dans des échelles unifiées. 
Diverses méthodes d'unification des données ont été proposées. 
Voyons les plus importantes d'entre elles. 


Réduction à des variables binaires. Cette méthode est basée sur 
la substitution à chaque aléatoire primitive d'une série de variables 
aléatoires prenant seulement les valeurs 0 et 1. Pour une variable 
nominale x à * modalités x,. . .., x,, on introduit * variables 
Yu - - +, Yr, telles que y; = 1 lorsque x = zx; et y; — O lorsque 
rer (tt —=1t,:::,8) 

Ce procédé est parfois utilisé pour réduire une variable aléatoire 
mesurée dans une échelle ordinale à des variables binaires. Mais 
souvent il est plus commode de distinguer l'événement x > x, au 
lieu de x = x,. Comparons les qualités de ces méthodes à la faveur 
du problème suivant. Soient E une variable aléatoire uniformément 
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répartie sur l'intervalle [0, 1], 8 un petit nombre; 
O2 LrzLy — 8 Li — 38/2; 
ho si x — 0/2 LL 5 << x + 6/2; 
u (x) = Ù sinon ; 
v=v(r)=1 si E>7r; 
borey: si Ex. 
La fonction uw (x) modélise visiblement la première méthode de 


passage aux variables binaires, la fonction v (x), la seconde. Des 
calculs peu compliqués nous donnent : 


cor (E, u(x))=(z—0,5) V 8-12/ V 1 —5; (40.1) 
cor (u (x), u (y)) = — 6/ (1 — 6); (10.2) 
cor (, v(r)=0,5V z(1— zx): V 12: (10.3) 
cor (v (x), v(y)=V z(1—y)/ V(1—2x)y. (10.4) 


Des formules (10.1) et (10.2) il s'ensuit que la corrélation entre E 
et u (x) dépend de la variable x. Le coefficient de corrélation est de 
même signe dans la première et dans la seconde moitié de l'inter- 
valle [0, 1] et s’annule pour x — 0,5. La corrélation entre u (x) et 
u (y) ne dépend pas de la position relative de x et y. Dans la deuxiè- 
me méthode de réduction aux variables binaires, le signe de la cor- 
rélation entre E et v (x) est le même sur l'intervalle tout entier et la 
corrélation, la plus grande pour x = 0,5 (formule (10.3)). La corré- 
lation entre v (x) et v (y) est toujours strictement positive et d'autant 
plus élevée que x est proche de y (formule (10.4)), ce qui est légitime. 
Donc, dans le deuxième procédé de réduction aux variables binaires, 
les relations de corrélation gardent en grande partie leur ancienne 
signification. 

Si l’on a affaire à une variable quantitative continue, on quanti- 
fie ses valeurs, on les regroupe en modalités, puis, on procède comme 
pour l'échelle ordinale. 

Le principal défaut de la technique exposée est l'introduction 
d'un grand nombre de nouvelles variables et une perte partielle 
d’information contenue dans les données à cause aussi bien de la 
quantification que de la réduction artificielle du niveau de l'échelle 
utilisée. 

Codage des variables ordinales et nominales. Cette méthode est 
à l’antipode de la méthode qui vient d'être exposée : en effet, toutes 
les variables sont hissées au rang de variables quantitatives par at- 
tribution de valeurs numériques à leurs modalités. Les valeurs affec- 
tées sont parfois appelées codes. 
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Le choix des codes dépend essentiellement des objectifs fixes 
au codage. Si, par exemple, l'on étudie le lien entre deux variables 
nominales, il faut choisir les codes à partir de la condition de maxi- 
misation du coefficient de corrélation de ces variables [50], [85]. 
S'il est question d’une classification des observations (analyse dis- 
criminante), le choix des codes peut être rattaché à la condition de 
maximisation de la distance normée dans un espace des échantillons 
à plusieurs dimensions entre les centres des populations étudiées 
(la distance de Mahalanobis). On simplifie parfois ce problème en 
affectant ces codes aux coordonnées de façon à maximiser seulement 
la: distance normée entre les valeurs moyennes de la coordonnée 
envisagée. Dans [98] et [100] on compare statistiquement sur un 
exemple particulier l'efficacité de ces deux méthodes de codage en 
analyse discriminante. 

Les méthodes de codage, dans lesquelles les codes sont choisies 
à partir de la condition de maximisation d’une fonctionnelle conve- 
nablement définie, s'inscrivent dans le cadre de l'approche extré- 
male de la formulation des principaux problèmes de mathématique 
statistique mentionnée au $ 1.2. 

En général, le codage des variables qualitatives est un problème 
compliqué tant sur le plan numérique que sur le plan statistique. 
Certains aspects de ce problème sont discutés dans [48, 50, 77, 82, 


85]. 
10.3. Lois empiriques 


À l'état brut les données sont généralement peu « locaces ». 
Avant toute analyse il faut les ranger et les apprèter. En particulier, 
il serait souhaitable d'avoir une idée de la loi de probabilité des. 
variables aléatoires figurant dans ces données. 


10.3.1. Histogramme. Si le nombre des valeurs possibles de la 
variable aléatoire n’est pas élevé, on peut se faire une idée de sa loi 
de probabilité en étudiant les fréquences d’apparition de chacune 
de ses valeurs. 

Dans le cas général, on regroupe les valeurs des variables aléa- 
toires en classes et on compte combien de fois ces valeurs apparaissent 
dans chaque classe. Au lieu des innombrables valeurs éparpillées, 
on obtient un tableau statistique assez suggestif. La technique de 
passage aux données groupées est développée en détail au $ 5.4. 

Pour représenter la loi de probabilité de façon plus suggestive, 
on construit dans un système de coordonnées rectangulaires une figu- 
re spéciale appelée histogramme de la loi. A cet effet, on partage 
l'axe horizontal en intervalles égaux correspondant aux classes et sur 
chacun de ces intervalles pris pour base on construit un rectangle 
dont la hauteur est proportionnelle à la fréquence de la classe res- 
pective. L'histogramme obtenu dépend du choix de la longueur 
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des intervalles de classes. Pour réduire cette dépendance, on procède 
à un lissage de ces histogrammes. Une méthode de lissage consiste 
a relier par des droites les milieux des bases supérieures des rectangles 
voisins. 

Exemple 10.1. Le tableau 10.1 représente les valeurs du loga- 
rithme w du salaire (en unités conventionnelles) d'ouvriers à la pièce. 
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50 52 54 56 568 50 22 9,4 5,6 5,6 


Fig. 10.1. Histogrammes rectangulai- Fig. 10.2. Histogramme de la figure 
res de la répartition des données du 10.1 après lissage 
tableau 10.1 pour deux intervalles de 
groupement (le nombre d'observa- 
tions est porte sur l'axe des ordon- 
nées, u, sur l’axe des abscisses) 


On sait que cette variable est approximativement normale. Pour 
illustrer l'influence de la longueur des intervalles de groupement 
sur la forme de l’histogramme, on a représenté sur la figure 10.1 des 
histogrammes de pas À — 0,05 et k — 0,10. On constate que l'histo- 


Tableau 10.1 


5,44 5,96 5,34 5,54 5,43 5,40 
5,37 9,63 5,49 5,32 5,30 5,38 
5,36 5,51 5,37 5,51 5,30 5,69 
5,42 5,93 5,41 5,31 5,48 5,930 
5,50 5,61 9,48 5,46 5,67 5,53 
5,68 5,92 5,43 5,90 9,31 9,94 
5,33 9,46 5,09 5,39 5,27 5,98 
5,25 5,40 5,69 5,60 5,43 5,48 
5,52 9,15 5,34 5,66 5,43 

5,52 5,41 5,17 9,44 5,39 


gramme de plus grand pas (la ligne en pointillé) est plus lisse. On 
observe le même effet sur la figure 10.2 qui représente les histogram- 
mes lissés. 

Les données groupées sont parfois utilisées pour calculer les mo- 
ments de la variable aléatoire à la place des vraies valeurs des obser- 
vations. Ceci étant, si les intervales de classes sont tous de même 
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longueur et si leur position est choisie de façon aléatoire, la valeur 
moyenne de l'échantillon calculée sur les données groupées, ne varie 
pas en moyenne, et la variance augmente de k°/12 (102, 138]. Pour 
compenser cet effet, de la valeur de la variance calculée sur les don- 
nées groupées on retranche la quantité k?/12 (la correction de Shep- 
pard). En particulier, pour h = 0/2, l'influence du groupement sur 
l'estimation de © est de l’ordre de 1 % et on peut la négliger. 


Exemple 10.2. Le tableau 10.2 représente les estimations de la 
moyenne et de la variance calculées sur les données groupées (fig. 10.1) 
et les données non groupées (tableau 10.1). 

On remarque sur le tableau 10.2 que les valeurs moyennes varient 
peu, tandis que la variance croît mais est compensée dans une gran- 
de mesure par la correction de Sheppard. 


Tableau 10.2 


| Correction 


de Sbheppard 
Initiales 5,439 0,01633 0 
Premier groupement 5,434 0,01681 0,00021 


Deuxième groupement 5,434 0,01703 


10.3.2. Estimations non paramétriques de la densité. Pour esti- 
mer la densité de probabilité, on peut outre les histogrammes se 
servir de la statistique 


Fa = ny À k((m—2b), (40.5) 


où b est un petit paramètre, À (u) une fonction vérifiant Îles condi- 
tions suivantes : À (u)=>0,k (u) = À (—u), | k(u) du = 1, k(u)—+ 


— 0 ([u |— co). Pour k (u), on prend souvent la densité de la loi 
normale réduite. Le principal avantage de ces estimations sur les 
histogrammes est qu’elles ne dépendent pas du choix de la position 
des intervalles de classes. Cette circonstance facilite leur générali- 
sation au cas multidimensionnel. En vérité, le choix du paramètre b 
est arbitraire tout comme la longueur de l’intervalle de classe. 

Pour se faire une idée du mécanisme de fonctionnement des 
estimations (10.5), on a construit sur la figure 10.3 les graphiques 
de trois d’entre elles pour des valeurs différentes de b en utilisant 
les données du tableau 10.1. Comparez ce dessin aux histogrammes 
des figures 10.1 et 10.2. 


10.3.3. Estimation de la fonction de répartition. Soit donné un 
échantillon zx, . .., z, d'une population générale de fonction de 
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répartition F (t). Pour estimation de F (t), on prend 
: 1 1 | : 
æ,<t 
où la sommation est étendue à tous les x, << t. Le théorème limite 
central (cf. $ 7.3) nous dit que pour tous tete =>0,ona 
P { lF(t)—F(t) [>> €} —+ 0 lorsque nr — oo. 


On obtiendrait une estimation voisine de F (t) en intégrant l’esti- 
mation non paramétrique (10.5) de la densité entre —o et t. 
S’il faut vérifier qu’une variable aléatoire admet une fonction 


« 


de répartition G (t) appartenant à une famille F((£ — u)/0), 


f (u) 


Fréquence, 
cumulée, en % 
Le VLÈ ESS LABS 


0 
50 52 54 56 58 u 


» , 


52 54 56  S8t 


Fig. 10.3. Estimations non paramétri- Fig. 10.4. Fonction de répartition de 
ques de la ere _ u pour trois va- u sur du papier gausso-arithmétique 
eurs de b 


où F (-) est une fonction de répartition continue connue, on peut, 
pour construire F, se servir d’une échelle spéciale qui consiste à por- 
ter sur l’axe des ordonnées non pas F (t) mais les valeurs de la fonc- 


tion v = F-1(F (t)), où F-Test l'inverse de F. Dans les nouvelles 
coordonnées ({, v), le graphique de G (ét) est une droite qui permet 
d'estimer sans peine les paramètres u et © (cf. n° 10.4.3). Il existe 
un papier spécial dit gausso-arithmétique dans lequel v = D”, 
où ® (-) est la fonction de répartition de la loi normale réduite. 
Sur la figure 10.4 on a représenté sur ce papier la fonction de répar- 
tition empirique des données du tableau 10.1. Pour rz = 58, on cons- 
tate un alignement des points, ce qui exprime que Ja répartition 
de u est approximativement normale. 


10.3.4. Transformation des variables. Presque toutes les métho- 
des de l’analyse multidimensionnelle partent d’une manière ou d’une 
autre de l'hypothèse de normalité des variables aléatoires figurant 
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dans le modèle. Ceci nous suggère de trouver une transformation qui 
rende les variables aléatoires non normales (non gaussiennes) ap- 
proximativement normales. Des considérations géométriques suggè- 
rent que toute répartition continue peut être rendue normale par une 
transformation monotone continue de la variable aléatoire. Initia- 
lement, on s’est servi des transformations y = Vzret y = log (r+a). 
Dans la monographie de Hald [68] on trouvera de nombreux exem- 
ples mettant en évidence l'interêt de ces transformations. 

J. Box et D. Cox [31] recommandent d'utiliser les familles de 
transformations à un et deux paramètres suivantes : 


x —1 . 
7 UGZ0); (10.7) 
]n x (À = 0) ; 
(+) 1—1 
- Fe (ui #0): (10.8) 


In(r+k) (A = 0). 


[1 faut prèter une attention toute particulière au lien entre les densi- 
tés de probabilité f (y) et p(x) de y et de zx (cf. $ 7.4) : 


p@=f (| <E | 


Dans le cas de la famille à un paramètre (10.7), 


Ô 
In = (Â—1l)inz; (10.9) 
dans celui de la famille à deux paramètres (10.8), 
In = (A4 — 1) In (x + 0). (10.10) 


Les valeurs convenables du ou des paramètres peuvent être détermi- 
nées graphiquement, comme le préconise [68], ou par la méthode 
du maximum de vraisemblance en traitant À (resp. À,, À.) comme le 
paramètre (resp. les paramètres) de la répartition et en écrivant la 
fonction de vraisemblance pour les variables primitives. 


10.3.5. Tableaux de contingence. Les répartitions empiriques 
multidimensionnelles et notamment les répartitions des variables 
aléatoires nominales et ordinales sont souvent représentées par des 
tableaux rectangulaires avec une double, triple ou multiple classi- 
fication. Dans la case correspondant à la i,-ième modalité de la pre- 
mière classification, à la i,-ième modalité de la deuxième classifi- 
cation, ..., à la i-ième modalité de la /-ième classification, on porte 
le nombre x;,;1, .… 5, d'objets possédant simultanément les moda- 
lités respectives de chaque variable. Ces tableaux sont appelés 
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tableaux de contingence. De nombreux traités de statistique leur sont 
consacrés. Les techniques traditionnelles de traitement des tableaux 
de contingence sont accessibles dans [40, 79, 138], les techniques 
modernes utilisant les modèles loglinéaires, dans {[15, 22, 66, 111]. 


10.4. Estimation des paramètres de localisation et d'échelle 


10.4.1. Position du problème. Dans la pratique, on est souvent 
confronté à des répartitions proches des répartitions normales quand 
on enregistre directement les variables observées ou quand on trans- 
forme les données empiriques comme indiqué à la fin du $ 10.3. 
Les principales caractéristiques que l’on utilise lorsqu'on manipule 
ces répartitions sont d’une manière ou d'une autre les paramètres 
de localisation et d'échelle. Vu que la forme analytique exacte des 
répartitions empiriques est généralement inconnue, et souvent de 
peu d'intérêt pour le chercheur, ces paramètres sont détermines par 
une procédure numérique. Ceci étant, les estimations des paramètres 
doivent être telles que 

1) si la répartition est normale, le paramètre de localisation em- 
pirique m soit une estimation convergente de la moyenne u, et le 
paramètre d'échelle empirique b, une estimation convergente de 
l'écart-type ©; 

2) les paramètres changent comme les paramètres d'une loi nor- 
male par une transformation linéaire de la variable aléatoire. 

Dans le cas multidimensionnel, on introduit respectivement le 
vecteur de localisation M et une matrice semi-définie positive B 
qui se ramènent, pour une répartition normale, aux habituels vec- 
teur des moyennes et matrice des covariances. 

Chaque méthode d'estimation des paramètres de localisation et 
d'échelle conduit à une certaine paramétrisation des répartitions. 
Penchons-nous sur les diverses méthodes d'estimation. Ces 10 à 15 
dernières années ces questions monopolisent de plus en plus l’atten- 
tion des statisticiens de métier, puisqu’une modélisation mathéma- 
tique directe a montré que les procédures statistiques, optimales pour 
la loi normale, perdent brusquement leurs propriétés optimales en 
cas d’alourdissement des ailes. Avant de passer à un exposé systé- 
matique de cette question, arrêtons-nous sur les éventuels mécanis- 
mes d’apparition des ailes « lourdes ». Un échantillon normal peut 
être pollué par des erreurs importantes d'ordre technique, commises 
lors de l'enregistrement des observations. Ces « aberrations » doi- 
vent être identifiées, puis. tout simplement abandonnées. Dans le 
deuxième cas qui, en principe, est important, nous avons affaire à 
une répartition approximativement normale mélangée à une autre 
de moyenne légèrement différente et de variance plus élevée. Ces 
cas se présentent lors de la définition des « normes » en économie, 
dans les études sociologiques. en médecine. Ici, il n’est plus possible 
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de traiter la « pollution » comme une « aberration », car les données 
enregistrées dans une partie de l'échantillon diffèrent parfois moins 
par les limites de variation des valeurs possibles des variables que 
par la variation de la fréquence des écarts par rapport à la tendance 
centrale de la « norme ». La situation est davantage compliquée par 
le fait qu'ici les pollutions non symétriques sont chose courante. 
Ainsi, par exemple. quand on estime le rendement du travail dans 
un secteur industriel, les entreprises fonctionnant sur des technolo- 
gies dépassées auront en moyenne de moins bons indices que le prin- 
cipal groupe d'entreprises. De façon analogue, un début de maladie 
déplace les indices physiologiques du patient dans une seule direc- 
tion. Le choix du procédé de paramétrisation dépend essentiellement 
dans ces cas de l'objectif de la recherche : faut-il décrire la popula- 
tion tout entière ou seulement son noyau (qui représente la « nor- 
me ») après avoir si possible éliminé l'effet de « pollution »? Aussi 
avant d'introduire les paramètres d'échelle et de localisation par tel 
ou tel procédé, doit-on veiller à la simplicité de l'interprétation des 
estimations, à la possibilité de les appliquer à la résolution des pro- 
blèmes envisagés et aux propriétés statistiques empiriques non <eu- 
Jement pour la loi normale, mais aussi pour un large spectre de modè- 
les de « pollution » de cette loi. Enfin, la simplicité de la réalisation 
technique des estimations, notamment dans le cas multidimension- 
nel, joue un rôle assez important. 


10.4.2. Estimation des paramètres de la loi normale. Soit X, ,.… 
….X, un échantillon detaille r d'une répartition normale multidimen- 
sionnelle de paramètres (W, ©). Les estimations sans biais et effi- 
caces (cf. $ 8.1) des paramètres sont définies par les formules 

X — 2 X;'n s S — > (À; — X) (XX) (n — {) à (10.11) 
La matrice des covariances de l'estimation de la moyenne est donnée 
par la formule 


E(X — M)(X — M) =n1©. (10.12) 


Les estimations (X, S) sont actuellement les plus sollicitées et 
figurent dans tous les paquets de programmes statistiques. Malheu- 
reusement, elles sont douées de mauvaises propriétés empiriques pour 
les répartitions voisines des normales mais possédant de plus lourdes 
ailes (les détails sont développés au n° 10.4.4). 


10.4.3. Méthode graphique d'estimation. Traçons sur du papier 
gausso-arithmétique une droite correspondant à une fonction de 


.. *) Si l'on respectait la logique de cette notation, on devrait désigner l’es- 
timation quadratique moyenne de la variance de z par s en dimension un. Mais 
on se conformera à l'usage en statistique mathématique et on la notera s2. 
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répartition (cf. n° 10.3.3) et soit u, (0 << x << 1) l’abscisse corres- 
pondant à la probabilité &. Posons 


A 


U—= Up, One = (Use — U)/1 , 94 
où 


C0,84; 0,16 — (Los, ds U,18)/2. 


Dans cette définition, u est la médiane de la répartition, le numéra- 


teur de 6:/,, 17, est la dispersion interquantile. Dans le cas normal, ces 
estimations admettent les variances asymptotiques (7—- oo ) sui- 
vantes [41]: 


1 


Qi 


= 0° 52 c° 
1,51— : \ O3 1.36: on à 


à 


;” es 
\ = ECHO 
Voo.s4: 0,16 © 0,93 — : 


Si l'on tient compte du fait que, dans le cas d'une répartition nor- 
male, Vxr = o°/n et Vs — o*/(2n), on constate que ces estimations 
sont moins efficaces que celles utilisées ordinairement pour le cas 
normal. 


B10.4.4. Stabilité des estimations pour de petits écarts de la ré- 
partition par rapport à la normale. Gauss a débouché sur la loi nor- 
male en 1809 en étudiant un problème que dans le langage actuel on 
pourrait énoncer comme suit [57, 58]: trouver une répartition pour 


laquelle la moyenne arithmétique x des observations indépendantes 
serait l'estimation du paramètre de localisation par le maximum de 
vraisemblance. De la position même du problème de Gauss il ap- 
pert que x n’est pas tenu de jouir de bonnes propriétés empiriques 
pour les répartitions qui ne sont pas normales. Et c est effectivement 
le cas: l'efficacité de x en tant qu'estimation du paramètre de loca- 
lisation baisse rapidement lorsque les ailes s'alourdissent même 
si les répartitions sont symétriques. Le tableau 8.1 représente l'ef- 


ficacité relative de x pour de nombreuses répartitions. 
Historiquement, on a remarqué depuis longtemps que, quand 
on estimait le centre d’une répartition, on avait intérêt à éliminer un 
même nombre peu élevé de termes extrêmes de la série variationnelle 
et à prendre la moyenne arithmétique des termes restants. Cette 
estimation était utilisée en France au XVIII siècle pour évaluer la 
récolte annuelle moyenne. En 1910 elle fut proposée par Poincaré 
comme une alternative plus stable de x. Cette méthode est appli- 
quée par les arbitres en gymnastique pour déterminer la note moyen- 
ne d’un concurrent. Mais plus tard, dans les années 30 à 40, les 
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brillants travaux de R. Fisher et les notions fondamentales d'’ex- 
haustivité (d’une statistique) et d'efficacité (d'une estimation) 
pour une classe bien définie d’hypothèses concurrentes occultèrent 
la stabilité des estimations. J. Tukey [136] fut le premier à attirer 
l'attention des statisticiens sur la stabilité des estimations. 
Citons l'exemple d'une statistique stable, commode qui connut 
bien des déboires. Largement répandue au début du siècle, elle fut 
jugée pas assez efficace, disparut pratiquement des ouvrages de 
statistique mathématique dans les années 60 et ce n'est que derniè- 
rement qu'elle a été remise à l’honneur. Nous avons dit l’estima- 
tion du paramètre d'échelle appelée erreur absolue moyenne 


n 
d, = NN [x —zxl/n. Depuis les temps de Gauss, cette esti- 
imi 
mation a rivalisé avec l'estimation quadratique moyenne s, — 
VS (x: — x}*{(n — 1). En général, d et s sont des paramètres 
différents. Pour la loi normale, le rapport de leurs valeurs limites 


est égal à : = = V 2/x. 


Pour comparer d, et s,, on se sert de la caractéristique asymptoti- 
que suivante qui exprime l'efficacité asymptotique de d, par rap- 
port à s, comme une estimation du paramètre d'échelle : 


V (Sn/Sæ) 


En Vn/de) ° 


n—00 


et on effectue la comparaison sur la loi normale « polluée » de Tukey 
(cf. n° 6.1.11). Le tableau 10.3 représente les variations de e en fonc- 
tion de €. Sur ce tableau on voit que, dans le cas normal (e = 0), 


Tableau 10.3 


0 | 0,001 | 0,002 0.005 | 0,01 | 0,02 | 0,05 | 0,10 | 0,15 vs 


e (e) 1,371 


0,876 | 0,948 | 1,016 108 | 1,439 1,12 2,05 1,09 1,689 


sest de 12 % plus efficace que d, mais déjà pour e = 0,002, c'est d 
qui est plus efficace. L'efficacité de d continue de croître rapidement 
et, pour & = 0,05, est de deux fois supérieure à celle de s. Comme d 
est plus efficace que s pour pratiquement toutes les valeurs de e, 
il s'ensuit qu'il est préférable d'utiliser d pour les échantillons de 
petite et moyenne taille. On se servira de s uniquement pour les 
échantillons de très grande taille lorsque la répartition est très proche 
(!) de la normale (e << 0,002). 

Les estimations graphiques décrites au n° 10.4.3 sont manifeste- 
ment stables pour les écarts de la répartition par rapport à la norma- 
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le, mais elles ne sont pas assez efficaces pour une loi normale. C’est 
qu'on voudrait tirer le plus grand profit de l'information contenue 
dans la partie centrale de la répartition. On peut le faire, par exemple, 
en utilisant des fonctions de poids spécialement choisies pour 
déterminer les paramètres. Dans le cas multidimensionnel, l’esti- 
mation À] du vecteur de localisation et l'estimation B de la matrice 
des covariances peuvent être déterminées [33, 91] par la résolution 
itérative des équations 


V'(m—M)u,(t;) =0; (10.13) 


à 


D XI M) (Xi — M) — BB] uw (4) = 0, (10.14) 


où w, (t), w, (t) sont des fonctions de poids données, 1; = (X, — 
— M) B"1(X; — M), et B une constante choisie de manière à com- 
penser dans le cas normal le biais de l'estimation de la matrice des 
covariances, causé par la pondération. Pour w, = w, = 1 et B = 1, 
les formules (10.13) et (10.14) se ramènent aux habituelles estima- 
tions (10.11) et (10.12) de la loi normale. 


10.4.5. Estimation de la position du centre des lois symétriques. 
Les anciennes et naïves hypothèses relatives à l'estimation du para- 
mètre de localisation furent assises sur des bases nouvelles après 
le fameux travail de Tukey [136]. Décrivons les plus intéressantes 
d’entre elles. Dans la suite, zx,, . .., x, est un échantillon indé- 
pendant de fonction de répartition symétrique P (x — pu) et x < 
< .-..< Tin la série variationnelle correspondante. 

La moyenne tronquée d'ordre à (0< &œ <0,5) pour x, .-., z 


est définie par la formule 
n nn 
ta=—— À zw, (10.15) 


iem+1 
où m est le plus grand entier < œn. Sous certaines conditions impo- 
sées à la fonction de répartition P(x), l'estimation est asymptotique- 
ment normale et possède une variance asymptotique n7-10% (œ), où 


6 (&) = en ( Ï z2f (2) dz + Duzà ), (10.16) 


où f (z) est la densité de P (2) et z4 = P”1 (a). 
La moyenne winsorienne d'ordre a (0 &œ << 0,5) pour x, ... 
> Zn eSt donnée par la formule 
; n-Mm—1 
w (a)=— | DETTE (Ztm+19 + Ztn-m)) } (10.17) 


ixm+2 
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Cette estimation est aussi, sous certaines conditions portant sur la 
fonction de répartition P(x), asymptotiquement normale de variance 
asymptotique n-10% (œ), où 


Z1-@ 
0 (a) = | 22f (z) dz + 2a (at). (10.18) 


Les estimations t (œ) et w (œ) sont destinées à combattre les obser- 
vations extrêmes qui sont considérées comme des erreurs grossiè- 
res. Ces estimations remplissent bien leur contrat si les erreurs gros- 
sières sont aussi fréquentes à gauche et à droite de la série variation- 
nelle. Mais si la répartition est asymétrique, il vaut mieux utiliser 
les estimations du n° 10.4.6. L'étude des propriétés des estimations 
du paramètre de localisation des répartitions symétriques a fait 
l'objet de nombreux travaux [71, 72, 91, 124]. Si l’on considère un 
modèle de «& pollution » de la loi normale ( de la forme 


Fft—u)={—e D(t— nu) +eH(t—u), 


où À (u) est la fonction de répartition d'une pollution arbitraire 
symétrique par rapport à = 0, alors le minimum de la variance 
asymptotique maximale (sur A) de l'estimation de pu est atteint sur 
t (œ), où le niveau de troncature « est choisi de telle sorte que « = 
= ® (—k), où k est la solution de l'équation [73]: 


O0 
D fee k [e-meac) 
1—e V 2x : 


Ce résultat est intéressant sur le plan théorique; dans la pratique, 
e est généralement inconnu et la répartition H (x), rarement stricte-- 
ment symétrique. 

La proposition de Humpel [71] d’estimer simultanément les para- 
mètres de localisation m et d'échelle s moyennant la résolution de: 
l'équation 


D Y(z—m)/s]=0, (10.19). 
i 
où 
{  lul, 0<Iul<1,7; 
| 1,7, 1,7<[u|<3,4; 


,  34<lul<8,5; 
{ 0, |u|=>8,5, 


où s est la médiane des écarts absolus de x; par rapport à m, va dans. 
le sens des estimations exhibées au n° 10.4.6. Cette équation se ré- 


.. W(u)=sen " (8,5—]u |) 
3 
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sout par une méthode itérative. Pour approximation initiale de mn, 
-on prend la médiane z;, et pour s, la médiane de l’écart absolu par 
rapport à mo. 


10.4.6. Paramétrisation à l’aide des estimations exponentielle- 
ment pondérées (EEP). Si dans les formules (10.13) et (10.14), on 
pose w, (t) = w, (t) = exp {—À#/2}, B = (1 + À)"!, où À est un 
petit paramètre, on obtient une classe à un paramètre d’estimations, 
proposée en 1970 par L. Méchalkine. Ces estimations sont commodes, 
Stables pour les pollutions non symétriques, admettent une interpré- 
tation probabiliste simple et se généralisent au cas multidimension- 
nel. Ces dernières années, elles ont fait l'objet d'intenses études 
(33. 34, 96, 97] et on a élaboré pour elles une théorie asymptotique 
pour les répartitions normales, dans le cas multidimensionnel, et 
pour les répartitions non normales, dans le cas scalaire. L'’interpré- 
tation géométrique suggestive des EEP et la simplicité des procédu- 
res de calcul nécessaires à leur mise en œuvre plaident pour leur géné- 
ralisation aux problèmes de géométrie multidimensionnelle [83] 
et de régression [99]. 

Commençons l'exposé par l'interprétation probabiliste des EEP. 
Par une série de définitions, nous allons indiquer pour chaque ré- 
partition multidimensionnelle la loi normale la plus proche d'elle, 
et les paramètres de cette loi seront pris pour paramètres de la répar- 
tition initiale. 

Soient X € RP, À un ensemble convexe de RP et 


p(F, G) =sup| | GF(X)— 46 (x) 
u A 


la distance entre les répartitions F et G. 
Définition 1. Etant donné une fonction de poids w(X). on appel- 
lera vecteur moyen w-pondéré le vecteur 


V=V, (F)= | Xw(X) dF(X)e, 
-et matrice des covariances w-pondérée, la matrice 
N=N (= | (X—V)(X—V) w(X) dF (X}'e, 
oùe=eu(F)= |w(X)dF(X). 


Définition 2. Les répartitions possédant les mêmes matrices 
-des covariances w-pondérées seront dites w-semblables. 

La notion de w-similitude permet de relier une loi arbitraire F 
à la loi normale W qui lui est w-semblable et à utiliser les moments 
-d'ordre un et d'ordre deux de Ÿ pour décrire F. Le choix de la fonc- 
tion de poids dépend essentiellement du problème posé. Si l'on se 
propose de décrire la partie centrale de la répartition, il est naturel 
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de relier la fonction de poids à la densité d’une loi normale w-sem- 
blable. 

Définition 3. Soit ç = ç (X ; A7, Z) la densité en un point X 
d'une loi normale W de vecteur des moyennes Àf et de matrice des 
covariances Z. On dira que la loi Ÿ est (4, C)-liée (ou simplement 
i.-liée) à F si elle est p?-semblable à F et p (F, N) << C. Cette der- 
nière condition a été introduite pour assurer l'unicité de la loi 
normale À-liée à F pour de petits C, car dans le cas général il peut 
exister plusieurs lois normales œ/-semblable à F. 

Définition 4. Soit V une loi normale À-liée à F. Le vecteur des 
moyennes et la matrice des covariances de seront appelés respecti- 
vement À-vecteur moyen et ?.-matrice des covariances de F°. 

De ces définitions il s ensuit, en particulier. que les À-moments 
de toute loi normale sont confondus avec ses moments ordinaires. 

Soient N (p) l'ensemble de toutes les lois normales p-dimension- 
nelles non dégénérées, c'est-à-dire non concentrées dans un sous- 
espace de dimension << p, et M (p, €) l'ensemble de toutes les répar- 
titions ?, telles que 


o(F, N(p)) = (F, N)<e. 


inf p 
NEN(p) 

En se référant aux travaux (33, 97], on démontre que. pour tout 
À > 0, il existe des € = C' (4, p) et £ — e (p. À, C) > 0, tels que 
pour tout # E M (p. €): 

1) il existe une loi normale et une seule 2.-liée à F: 

2) le À-vecteur moyen (WF) et la À-matrice des covariances (2r) 
sont des fonctions continues de F (au sens de la p-distance); 

3) le À-vecteur moyen et la À-matrice des covariances de F va- 
rient comme les moments respectifs de la loi normale par toute trans- 
formation linéaire des variables ; 

4) les À-moments satisfont le système d'équations 


M = | Xq*(X, AL, >) aF (X)/ | w7(x, M, ©)dF(X); (10.20) 


n 


E=(1+2) | (X— A) (À — AN) qù x 
X (X, M, 2)dF æ)] | g (X, M, X)dF(X), (10.21) 


où (x, M, È) = exp {—(r— M) St (x — M)/2}. Si la fonction 
F (x) est connue et si l’approximation initiale est convenablement 
choisie, on peut résoudre le système (10.20), (10.21) itérativement ; 

5) si l’on estime les paramètres sur le vu d'un échantillon indé- 
pendant de taille », les intégrales du système (10.20), (10.21) doivent 
être remplacées par les sommes correspondantes étendues à toutes les 
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observations : 
M=S Xi (Xi, AI, B)S q* (Xi, À, B); (10.20) 


B—(1+A)Ù (Xi— 1) (Xi— M) p(Xs À, BJ q*(X1. AL, B). 
(10.21) 


Pour le cas normal, A. Chouryguine [33] préconise, pour compen- 
ser la finitude de l'échantillon, d'introduire au second membre de 
(10. 21°) le facteur (1 + t/n) !, où T= — (1 + A)"+ (1 - 

— 2) PIS + AC + A)P+1( + 2A)P/2-8 [(5 -- 14 + 152° + S SAS 
+ AR) -- (p — 1) — À ae — 3,5%) — 3, (p — 1)(p — 2) X 
X (0,5 + À — 0,54°)]; | 

6) les estimations A7 et B sont convergentes en probabilité et 
asymptotiquement normales. En dimension un, leur matrice des 
covariances asymptotique est de la forme Cr-!, où C peut être ex- 
primé en fonction des quatre premiers À- et 2À-moments. Si az (À) = 


= [(X — Mg (X, A1. 5) F (X). alors C = K-THK-1. où K 
et EH sont des matrices carrées symétriques d'ordre 2 ; 


ki = 1, bo — CE. D 
he Eh. (00) a 0) 
he (+ 2 at V4 


Dans les calculs pratiques, les quantités a, (À) peuvent être rempla- 
cées par leurs estimations sur le vu des données empiriques ; 


3) dans le cas normal multidimensionnel, les estimations .W et B 
sont asymptotiquement indépendantes, la matrice des covariances 


asymptotique de .VZ est de la forme: n°71 (1 - A)P*° (1 + 22)-P/2 15, 

Les propriétés empiriques des À-moments sont illustrées pour la 
dimension un sur le tableau 10.4 [98] qui représente les estimations 
de la À-moyenne et de la À-variance calculées sur 100 échantillons de 
taille 100 *). On voit sur ce tableau que l'introduction d’une fonc- 
tion de poids dans le cas normal altère un peu les propriétés des 
estimations, mais par contre, dans le cas d'une répartition « polluée » 
non seulement elle réduit le biais des estimations, mais elle améliore 
Jeurs propriétés empiriques (À = 0,5). Dans la pratique, il est re- 


*) Les chiffres précédés du signe + expriment la valeur empirique de l’écart- 
type de l'estimation correspondante. 
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| Tableau 10.4 
Loi N (0,1) 0,9 N (0,1) + 0,1 N (1.3)2 


paramètre 


z.-moyenne 2.-variance 2.-ioyenne .-variance 


0,00020,010 | 1,01140,013 | 0,100#0,012 | 1,874+0,046 
0,006+0,011 |1,030+40,016 |[0,020-+0,011 | 1,17840,020 
0,01040,013 |1,026+40,023 10,02020,013 | 1,118-40,025 
0,014+40,015 1 1,015+40,030 10,023-20,015 1 1,083+0,031 


commandé de choisir les valeurs de Z. en fonction de la taille de l’é-° 
chantillon et dela dimension p de l'espace des échantillons de telle 
sorte que, d’une part, la pondération « amortisse » les grands écarts 
et, de l’autre, que la perte d'efficacité due à cette pondération ne 
soit pas trop grande. 

Les estimations pondérées avec des poids arbitraires sont traitées 
dans [91]. 


10.5. Visualisation des données multidimensionnelles 


10.5.1. Position du problème. Comme indiqué au $ 1.1, les don- 
nées recueillies peuvent souvent être traitées comme des vecteurs (des 
points) d’un espace à plusieurs dimensions. Si le modèle mathémati- 
que de la situation étudiée est connu, on peut s’imaginer avec plus 
ou moins de précision comment les points-observations seront dispo- 
sés dans cet espace. Mais, en règle générale, avant d'étudier la dispo- 
sition des points, on formule les hypothèses et on construit les modè- 
les. Les méthodes mathématiques sollicitées pour étudier la position 
des points reposent sur la notion de distance entre eux. Le travail 
[9] nous fournit plusieurs exemples de distances. Les méthodes de 
visualisation des données sont toutes basées sur les faits intuitifs 
suivants: 

{) « la dimension réelle de la situation étudiée » est tres infé- 
rieure à l’espace des échantillons; 

2) la position relative des points peut être étudiée par un assez 
vaste spectre de distances. L'expression « dimension réelle de la si- 
tuation » appelle quelques précisions. À défaut d'une définition 
exacte, on se propose de l'expliquer par un exemple. 

‘Exemple 10.3. On fait souvent appel à l'analyse discriminante 
linéaire fishérienne (9, 16, 103, 135] pour distinguer deux groupes 
d'objets dans un espace d'échantillons à p dimensions et classer toute 
nouvelle observation dans l’un de ces groupes. Dans ce cas, on sup- 
pose que les répartitions p-dimensionnelles des objets de chaque 
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groupe sont des échantillons de deux répartitions normales p-di- 
mensionnelles de matrice des covariances commune et de vecteurs 
des moyennes différents. L'ensemble de toutes les répartitions des 
données initiales se réduit donc à deux points de l’espace des obser- 
vations : à la moyenne des groupes respectifs et à une seule matrice 
des covariances, c'est-à-dire, en fait, à un problème en dimension 
un. Cette circonstance facilite considérablement la manipulation des 
données et permet d'estimer sans peine la probabilité qu’une nou- 
velle observation appartienne à tel ou tel groupe. 

Les méthodes de visualisation des données sont basées sur le 
passage des variables initiales xt, . .., 1(°) à un nouveau système 
de variables qui sont des fonctions des variables primitives. Il est 
souhaitable qu'un nombre petit q (pour la visualisation g peut ètre 
égal soit à 1, soit à 2, soit à 3) de nouvelles variables conservent les 
traits les plus caractéristiques de la structure de la matrice des don- 
nées, par exemple les « clusters », les « chaînes », les objets éloignés 
de la principale population et autres formations. 

Dans le cas général, le problème du passage (avec une perte mi- 
nimale d'information) des variables initiales xt, ..., x") aux 
nouvelles variables 21, ..., 49 (q< p) est présenté au $ 1.2 
comme un problème d'extremum, dans lequel le choix des nouvelles 
variables Z (X) = (29 (X), ..., «9 (X))' passe par la maximisa- 
tion d'une mesure d'informativité 7, (Z(X)) définie de façon exo- 
gène. 

Le choix de la fonctionnelle 7, (Z) dépend des objectifs de la 
visualisation et de l'information a priori dont on dispose sur la 
structure de la population d'objets étudiée. Si cette information fait 
défaut, on utilise des critères dits d'autoinformativité, qui visent à 
conserver au maximum l'information contenue dans la matrice des 
données initiales. La méthode des composantes principales el ses géné- 
ralisations non linéaires sont basées sur ces critères. L'information 
a priori concerne souvent la non-homogénéité de la population des 
objets, c'est-à-dire l'appartenance des objets à tel ou tel groupe, par 
exemple au groupe des personnes malades ou au groupe des personnes 
saines, ce qui implique de faire appel à des critères de l'analyse dis- 
criminante visant à préserver cette information. 

Comme indiqué au $ 1.1, les données initiales peuvent être dé- 
finies aussi sous la forme d'une matrice des proximités (ou d'une 
matrice des distances) entre les objets. La visualisation des données 
est dans ce cas étroitement liée aux méthodes de l'analyse des pro- 
ximités [75] et implique la construction d'une matrice des données 
(la configuration des points) éventuellement de! moindre dimension 
qui « expliquerait » la matrice des distances. 

On étudie plus bas deux méthodes de visualisation des données 
multidimensionnelles : 

1) la méthode des composantes principales qui ramène le problè- 
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me à la projection des points sur les plans construits sur les premiers- 
vecteurs propres de leur matrice des covariances commune; 

2) la représentation de la matrice des distances (cf. $ 1.1) par 
un nuage de points dans un espace de petite dimension. 


10.5.2. Composantes principales. On appelle composantes prin- 
cipales x), . ZP) de la variable X = (21), ..., x)" le systè- 
me de combinaisons linéaires orthonormales des variables initiales 


20 (X)=u, (20 — m0) +... + ou, (x) — mb) ; 


À ,: _— 
Es Ui; = 1 (j — 1, 3 D); (10.22) 


Usjuin = 0 (j, k=1,...,p,jÆk), 


où mU) est l'espérance mathématique de 2%). Dans la suite, si le 
contraire n’est pas spécifié, on admettra que les données sont cen- 
trées, c’est-à-dire que mt) = 0. Les combinaisons linéaires sont choi- 
sies de la manière suivante. La première composante principale pos- 
sède la plus grande variance parmi les combinaisons linéaires (10.22). 
Géométriquement cela signifie que la première composante prin- 
cipale est orientée dans le sens du plus grand allongement de l’el- 
lipsoïde de dispersion de la population étudiée. La deuxième com- 
posante principale admet la plus grande variance parmi les combi- 
naisons linéaires (10.22) non corrélées à la première composante. 
C’est la projection sur la direction du plus grand allongement des 
observations de l’hyperplan perpendiculaire à la première composan- 
te principale. La troisième composante principale possède la plus 
grande dispersion parmi les combinaisons (10.22) non corrélées avec 
les deux premières composantes principales, et ainsi de suite. De 
façon plus formelle, cela signifie que l’ensemble des q premières 
composantes principales est optimal pour le critère 
Ÿ Vz(2) 
13 (2(X)= = — 
. Vzü) 
jm! 


(10.23 


9 


où V2) est la variance de la j-ième composante principale; Val? 
la variance de la variable 2°). | 

Le calcul des coefficients des composantes principales est basé 
sur le fait que les vecteurs U;, -.., U, sont les vecteurs propres 
(cf. [161) de la matrice des covariances de la population étudiée, 
c'est-à-dire satisfont le système d'équations 


EU = AU. 
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Les valeurs propres correspondantes sont égales aux variances des 
composantes principales. Si maintenant l’on range les vecteurs pro- 
pres dans l'ordre de grandeur décroissante des valeurs propres 
>... },,à la première composante principale sera associé 
le vecteur propre correspondant à la plus grande valeur propre 
A, et VzÙ = },; à la deuxième composante principale sera associé 
le vecteur propre correspondant à la valeur propre suivante À, et 
Vz®) — À,, et ainsi de suite. 

Il existe en tout p vecteurs propres, donc, p composantes prin- 
cipales. La matrice des covariances des composantes principales 
XD, ..., 0) sera de la forme 


À, (ÿ) ... Ô 
Z7 = 0 hide 0 


0 0... 


Vu que la transformation U qui permet de passer des variables ini- 
tiales aux composantes principales est orthogonale, on a les relations 
suivantes 


D P 
Tri 2 Vzt) — > V:t) — 2 À " 
= = ie 


det Zz = det Z, 


c'est-à-dire que la variance généralisée det ZX, et la somme des va- 
riances des composantes principales sont respectivement égales à la 
variance généralisée det ZX et à la somme des variances des variables 
initiales. Donc, pour les qg premières composantes principales, le 
critère (10.23) est égal à 

ù hi 


2 M 


i=i 


| (10.237) 


c'est-à-dire au pourcentage de variance totale « explicable » par les 
qg premières composantes principales. Plus la valeur de ce critère 
sera proche de l'unité et moins on a de chance d’altérer la position 
relative des points empiriques en les projetant sur l'hyperplan 
construit sur les g premières composantes principales. 

Remarque 1. En pratique, la valeur théorique de X est la plu- 
part du temps inconnue, aussi considère-t-on à sa place la matrice 


des covariances empirique Ÿ — XX’ et parle-t-on des composantes 
principales de l’échantillon. Si aucune confusion n'est à craindre, on 
omettra le terme « empirique ». Signalons encore que le terme « com- 
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posante principale » désigne aussi bien le scalaire 24) que le vecteur 
propre Ü; correspondant. 

Remarque 2. La méthode des composantes principales est la 
plus féconde lorsque toutes les composantes du vecteur étudié ad- 
mettent la même signification physique et sont respectivement ex- 
primées dans les mêmes unités. Si les variables sont mesurées dans 
des unités différentes, le résultat risque de dépendre essentiellement 
du choix de l'échelle de mesure. Pour remédier à cette situation, on 
passe souvent à des variables sans dimension en normant zt'), par 


exemple par la transformation z*() — 20/01, où o:; est la variance 
de zx). 


10.5.3. Propriétés de la plus petite déformation de la structure 
géométrique des composantes principales. Exhibons deux assertions 
concernant l'invariance de la structure géométrique locale de 
l’ensemble des points initiaux par leur projection sur les q pre- 
mières composantes U,, ... 

1. Soit L un hyperplan arbitraire à q dimensions (q < p) pas- 
sant par l’origine des coordonnées, et soit Z,, . .., Z, les projec- 

ñn 


tions de X:, .-., Xh Sur L. Alors la quantité A (L) = » (X; — 


i=1 

— Z;)'(X; — Z;), qui est égale à la somme des carrés des écarts de 
X; par rapport à L, atteint son minimum lorsque L est confondu avec 
l'hyperplan C construit sur les q premières composantes principales. 
Ceci étant 


Aq(C)=minZ(L)=n (het ce + An). (10.24) 
L 


2. Considérons par ailleurs la matrice H d'ordre r et d'’élé- 
P 


ments h;,; = D) 24) 20) égaux au produit scalaire des vecteurs X; 


k=1 

et X;, et soit H (L) la matrice analogue construite sur les vecteurs 
Zis - -., Z4. La signification géométrique de ces matrices est évi- 
dente : Ch 3 est le carré de la longueur du vecteur X;, h;; est propor- 
tionnel au cosinus de l’angle de X;et X;. On a 


I H— H(C) = min || H—H (L)||= 2 ou + .. +Â5) (10.25) 


où || H|| — V'È% h# autrement dit, l’hyperplan construit sur les 
q premières composantes principales déforme le moins la longueur 
et les angles des projections. 

De (10.24) et (10.25) il s'ensuit que, pour mesure de l'invariance 
des propriétés géométriques des objets par leur projection sur LZ, 
19—0273 
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on peut adopter soit la quantité 
soit la quantité 


Les programmes réalisant la méthode des composantes principa- 
les figurent dans pratiquement tous les paquets de programmes 
statistiques. Les principaux défauts de la méthode des composantes 


principales sont liés au fait que, primo, l'estimation Ÿ peut être 
faussée par des « anomalies » passées inaperçues dans les données, 
et, secundo, cette méthode vise essentiellement à dégager les relations 
linéaires. 

On vient à bout du premier des problèmes indiqués en passant 
aux estimations stables, par exemple aux estimations pondérées 
(cf. n° 10.4.6 et [83]), ou encore en supprimant les anomalies à l’aide, 
par exemple, des diagrammes de dispersion (scattergrammes). On 
peut aussi procéder à l'estimation non pas sur l'échantillon tout en- 
tier mais sur une de ses parties. En médecine, par exemple, on peut 
utiliser les seules données des personnes saines. De façon analogue, 
pour améliorer la suggestivité d’un diagramme de dispersion met- 
tant en jeu un grand nombre d'objets, l'analyste aura intérêt à pro- 
jeter non pas toutes les observations mais seulement celles qui 
l'intéressent en premier chef. 

Pour remédier au deuxième inconvénient, on peut appliquer une 
méthode non linéaire d'application des données dans un espace 
de moindre dimension. 


10.5.4. Applications non linéaires dans un espace de moindre 
dimension. Soient X,, ..., À, des observations dans un espace à p 
dimensions, Zy;, - .., Z, leurs images par une application bijective 
non linéaire dans un espace à qg (q < p) dimensions. Pour mesure de 
la qualité de cette application, prenons une fonctionnelle reflétant 
l'invariance de la structure géométrique locale de la matrice des 
données X. On trouvera plusieurs types de telles fonctionnelles dans 
[9, 62, 430]. On se bornera à étudier la fonctionnelle 


I(Z, a)= D (d5—dt}d;/2 dy (410.26) 
1<J 1<3 
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où d;y est la distance sur l’espace des observations X et d'; la distan- 
ce sur l’espace d'arrivée Z. 
Pour distance on peut prendre la distance euclidienne pondérée 


dis=d(Xi, Àj)= (È Ur (240 — ay?) 


(la distance euclidienne ordinaire s'en déduit comme un cas parti- 
culier pour wi, = Wa = ... —= 1); la distance de Mahalanobis est 
invariante par les applications linéaires de l’espace de départ, 


diy=(Xi—X) Êt (Xi Xp), 
et la distance de Kolmogorov, 


2 p\1/P 
dy= (2 un | x — 24?) , p>0. 


L'espace d'arrivée peut également être muni de l’une des métri- 
ques précédentes. 

Dans la suite, les espaces de départ et d'arrivée seront munis 
de la métrique euclidienne. On passe aisément de la distance eucli- 
dienne pondérée et de la distance de Mahalanobis à la distance 
euclidienne ordinaire par une transformation linéaire des données. 

Supposons donc que l’espace d'arrivée est muni de la distance 


1/2 
déi=( > (20 —200)2) 
i= 


En portant cette expression dans (10.26), on met la fonctionnelle 
I(Z, a) sous la forme d’une fonction de q X n coordonnées 
z®) (GG =1,...,n, k—=1, ...,q), et la minimisation de la 
fonctionnelle Z (Z, a) se ramène à celle d'une fonction deg X n 
variables. 

Avant de passer à la description de la procédure de minimisation, 
considérons les propriétés du critère (10.26) en fonction des valeurs 
du paramètre a. Si a > 0, la déformation de la distance (c’est-à-dire 
la différence (d;; — di;)*) se répercute d'autant plus fortement sur la 
valeur du critère que la distance entre les points de l’espace de dé- 
part est élevée. C’est pourquoi, en se servant d'un critère dont le 
paramètre a => 0, on observera que plus la distance entre les points 
de l’espace de départ est élevée, et moins la distance de leurs images 
sera déformée. Pour les mêmes raisons, si a << 0, ce sont les images 
des petites distances qui seront le moins déformées. 

L'approche la plus souple est celle qui utilise un paramètre a 
qui varie en fonction de la différence d;; — di;. Plus exactement, 


[ua Si di di; 
€ = 


&s si di, > dis. (10.27) 
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Traitons le cas où a, > 0 et a; > 0. Supposons que d;; << di; 
et que d;; est très grand. Alors, le poids de la déformation (d;; — 
— dÿ}? sera petit ({/d;:). D'autre part, si d;;>d}; et d;; est encore très 
grand, alors le poids de la déformation (d;; — d;;)° sera élevé (d3). 
Donc, en minimisant 7(Z, a), on constatera que la déformation des 
grandes distances a tendance à croître, et celle des petites, à décroi- 
tre. Il est normal qu'avec des déformations de cette nature l’image 
de la configuration de départ soit meilleure. En tout cas, si l’on a 
affaire à des clusters, ce type de déformations peut être plus utile 
dans la mesure où les distances entre les points d’un même cluster 
auront tendance à être petites, ot les distances entre les points de 
clusters différents, à être grandes, donc, les déformations de ce type 
accentueront le « contraste » de la visualisation. 

Comme déjà signalé, la détermination de Ja configuration, pour 
laquelle la fonctionnelle de qualité Z (Z, a) prend sa valeur mini- 
male, se ramène à un problème de minimisation d'une fonction de 
gx n variables. Vu le nombre élevé de variables, les méthodes de 
résolution les plus performantes seront des modifications de la mé- 
thode du gradient. 

Considérons une procédure de résolution réalisée dans le program- 
me de réduction de la dimension dans le paquet des PPSA [108]. 
Le minimum de la fonction 7 (Z, a) dans un espace à q X nr dimen- 
sions est déterminé par la procédure itérative: 


À k 1 ol 5 - 
Robe fs] Ut het à 
17 * 
Si ? ® 


où t est le numéro du pas de l'itération, 7 la k-ième coordonnée 
de l’image de X;, et 


F0) 22 (1— A) ds 2200), (10.28) 


Et 
Donc, c’est une procédure de type gradient. Elle se caractérise par 


le choix d’un pas égal a+ Didi: On justifie la valeur de ce pas comme 


4>j 
on a justifié celle du pas choisi pour le critère (10.26) (avec a = 0) 
cité dans le travail [75] (ce pas est visiblement égal à 1/2n). On dé- 
montre que la procédure itérative (10.28) converge vers un point 
de minimum local de la fonctionnelle J (Z, a) quelles que soient les 
conditions initiales. Etant donné que la fonctionnelle 7 (Z, a) est 
susceptible d’avoir un très grand nombre de minimums locaux, pour 
tomber sur son minimum absolu, il faut exécuter de nombreux cal- 
culs qui occuperont assez longtemps l'ordinateur. Ceci donne un 
relief tout particulier au choix de l’approximation initiale. Dans le 
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paquet des PPSA [108], pour approximation initiale on a pris la 
projection des points de X sur les q premières composantes princi- 
pales. Si a — 0, les composantes principales minimisent le critère 
I (Z, a) dans la classe des applications linéaires orthogonales. Même 
si ce choix des conditions initiales ne garantit pas l'atteinte du mi- 
nimum absolu, il n’en contribue pas moins dans de nombreux cas 
à améliorer considérablement la configuration image par rapport à 
la méthode des composantes principales. Signalons en conclusion 
une importante propriété de l’application non linéaire: le centre de 
gravité de la configuration image est confondu avec celui de la con- 
figuration prise pour approximalion initiale. 


10.5.5. Analyse des proximités linéaire. Dans des numéros pré- 
cédents nous avons étudié le problème de la visualisation des don- 
nées sous forme d'une matrice. Le fichier est parfois représenté par 
une nr x n-matrice des distances D entre les objets. Plaçons-nous 
dans le cas où les éléments de la matrice D sont traités comme les 
distances entre les objets ct essayons de construire la configuration 
de plus petite dimension susceptible d'engendrer (d'expliquer) 
la matrice D. Ce problème s'appelle analyse des proximités linéaire. 
Pour le résoudre, on se servira de nouveau d’une fonctionnelle 
(10.26). La procédure itérative de détermination du minimum est 
la même. En revanche, la donnée d’une configuration initiale 
heureuse se complique sensiblement. Voyons une méthode qui con- 
duit à choisir une configuration initiale équivalente à celle obtenue 
par la méthode des composantes principales. Cette méthode est réa- 
lisée dans les PPSA. 

Suivant [133] introduisons une matrice symétrique H d'ordre nr 
d'éléments 


hha= + (dis+ did) (Gæ=t,...n; k=1,....n). (10.2) 


La valeur de à est supposée fixée. Les éléments de la i-ième ligne et 


de la i-ième colonne sont supposés nuls. L’élément hr peut être in- 
terprété comme le produit scalaire des vecteurs d’origine, le point 
d'indice i, et d’extrémités, les points d'indices j et k. En effet, pour 
les points X;, X;, X,,ona 


din = di; + dix — 2d;j din cos 0j, 
où 05, est l'angle des vecteurs X,—X, et X;—X;. D'où 
i 1 a 
dijdin COS Ojx = 7 (di; + din — din). (10.30) 
En comparant (10.29) et (10.30) on trouve que kÿ = (Xy — Xi) x 


X (An — Xi), Xj — Xiet Xx — X; d'origine X, et d'’extrémités 
X;et X2. Il existe autant de matrices H' que de points X,, c’est-à- 
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dire nr. On peut définir maintenant la matrice des produits scalaires 
des vecteurs issus du centre de l’ensemble des points X,, . .., X,, 
c’est-à-dire la matrice d'ordre r d'éléments 


hr _ (À; = X) (Xr su X). 


Les éléments de cette matrice se déduisent de ceux de n'importe 
quelle matrice H° par la formule 


+ 1 < 1 
haha += Dh D hat D hin. (10.31) 
j=1 R=1 j,R 


La matrice H! est justement la matrice qui sera utilisée pour déter- 
miner la configuration initiale. En admettant que les vecteurs sont 
centrés, on peut écrire H — X’X. Donc la matrice H possède les mé- 


mes rang et valeurs propres que la matrice des covariances Z (qui 
est inconnue). Chaque vecteur propre de la matrice H représente la 
composante principale correspondante de X, c'est-à-dire que la 
i-ième composante (i — 1, ..., r) du j-ième vecteur propre de H 
est le produit scalaire de X'; par le j-ième vecteur propre de la ma- 


trice Z. Si à des fins de visualisation on pose, par exemple, q = 2 
et on prend les deux premiers vecteurs propres de la matrice H pour 
coordonnées de la configuration initiale, on se retrouve dans la si- 
tuation décrite dans le numéro précédent. 


Conclusions 


1. Le succès d’une analyse, a fortiori si elle est volumineuse, 
passe par l'établissement d’un dossier d’étude décrivant avec soin 
l'organisation de la collecte des données, les variables enregistrées 
et le déroulement des opérations. L'état actuel du logiciel permet 
d'atteindre un niveau élevé d’automatisation et d'exécution de ce 
processus. L'analyse statistique doit être précédée d’une inspection 
minutieuse des données. 

2. Les mesures peuvent être effectuées dans des échelles diffé- 
rentes: nominale, ordinale, d’intervalles ct des rapports. Chaque 
type d'échelle implique sa propre technique de traitement statisti- 
que. Il existe des méthodes mathématiques spéciales axées sur l’uti- 
lisation de données multidimensionnelles exprimées dans des échel- 
les différentes. Mais la situation la plus typique de l'analyse multi- 
dimensionnelle est celle où les échelles sont de même type. Pour se 
placer dans ce cadre, il faut soit passer à des variables prenant les 
seules valeurs 0 et 1, soit coder les variables nominales et ordinales. 

3. La méthode la plus répandue d'estimation de la densité de 
probabilité d'une variable aléatoire est la construction de l’histo- 
gramme de cette variable ou du polygone de fréquence. Les données 
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groupées permettent d'estimer également les moments de la répar- 
tition, à condition d'introduire des corrections sur le groupement. 
L'assistance d'un ordinateur permet d'aborder les estimations non 
paramétriques de la densité, basées sur la moyennisation des 
« poids » de certaines observations dispersées autour de chaque obser- 
vation par le biais d’une fonction de poids spécialement choisie. 

4. On utilise souvent des transformations spéciales pour ramener 
la loi de probabilité des variables aléatoires étudiées à la loi normale. 
Dans ce cas, la densité de probabilité de la variable primitive est 
égale à celle de la loi normale de la variable image, multipliée par le 
jacobien de la transformation (cf. aussi (7.11)). 

9. Pour représenter graphiquement la fonction de répartition, 
on se sert de papiers spéciaux, sur lesquels les fonctions de réparti- 
tion de la forme F ((r — u)}/0), où F est connue, et u et o sont des 
paramètres inconnus, se représentent par des droites. Le plus cou- 
rant de ces papiers est le papier gausso-arithmétique. 

6. Pour représenter les répartitions multidimensionnelles de 
variables aléatoires mesurées dans des échelles nominale et ordinale, 
on fait largement appel aux tableaux de contingence dont l'élément 


4, j,. .., k indique combien d'observations de l’échantillon possè- 
dent la modalité à de la première variable, la modalité j de la secon- 
de, ..., la modalité k de la dernière. L'hypothèse la plus souvent 


testée dans les tableaux à deux dimensions est l'indépendance 
des lois de probabilité de la première et de la deuxième variable. 

7. Quand on manipule des données multidimensionnelles, on 
a souvent besoin d’avoir une idée générale sur la disposition relative 
des points-observations dans l'espace des variables correspondant. 
Toutes les méthodes sont basées sur la notion de « distance » entre les 
points-observations. L'une des plus courantes est la méthode des 
composantes principales qui permet de projeter les points-observa- 
tions sur la direction du plus grand allongement des données. 

L'assistance des ordinateurs a permis de développer largement 
des méthodes directes de recherche, dans un espace de dimension peu 
élevé, d’une configuration de points, telle que la distance entre les 
points de cet espace corresponde le plus (le degré de cette correspon- 
dance est mesuré par une fonctionnelle spécialement choisie) à la 
distance entre les points-objets. Ces méthodes ont reçu le nom d’ana- 
lyse des proximités. Elles sont encore peu élaborées sur le plan 
probabiliste et statistique. 

8. Pour décrire les répartitions proches de la répartition normale, 
on se sert traditionnellement de la moyenne arithmétique et de l’é- 
cart-type. Mais cette approche n'est pas toujours heureuse, car les 
estimations indiquées perdent rapidement leurs bonnes propriétés 
au moindre écart par rapport à la répartition normale. Dans cette 
situation, les méthodes qui sont moins efficaces pour la répartition 
normale, mais plus stables (plus « robustes ») aux écarts par rapport 
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à la répartition normale prennent le pas sur les autres. Signalons à 
ce sujet les méthodes graphiques et l’estimation, oubliée depuis belle 
lurette, du paramètre d'échelle, qui est basée sur l’écart absolu 
moyen. 

De nombreuses estimations stables des paramètres ont été pro- 
posées ces vingt dernières années. Les plus remarquables d’entre 
elles sont les méthodes qui utilisent, pour calculer les moments, la 
pondération des observations à l’aide de la densité d’une loi normale 
convenablement choisie. 


CHAPITRE 11 


ANALYSE PRÉLIMINAIRE DE LA NATURE DES DONNÉES 


Au stade initial du traitement statistique des données initiales 
DÉS, PE ET, (11.1} 


qui sont les valeurs observées de la variable aléatoire étudiée E, 
on doit donner aux questions suivantes des réponses qui conditionne- 
ront le choix des méthodes d'analyse les plus efficaces : 

peut-on admettre que les données disponibles (11.1) sont les ré- 
sultats d'observations indépendantes d’une variable aléatoire ? 

peut-on admettre que les échantillons initiaux sont extraits d’une 
même population générale ? 

est-il légitime de conjecturer que la loi de probabilité de la va- 
riable aléatoire Ë est symétrique par rapport au centre de groupement 
des valeurs de E? 

quel modèle est le plus approprié pour décrire la loi de probabili- 
té des données traitées, et, en particulier, comment vérifier l’accord 
du modèle choisi avec les observations disponibles ? 

comment trailer les données si certaines viennent à manquer 
(par exemple, certaines composantes d’une observation multidimen- 
sionnelle X n’ont pas été mesurées) ? 

quelle attitude adopter avec les observations « suspectes », 
c'est-à-dire les observations qui contrastent avec les autres ? 

La réponse à ces questions est donnée par divers tests statistiques : 
tests d'indépendance et de stationnarité des observations, d'homogé- 
néité de deux ou plusieurs échantillons, de symétrie de la réparti- 
tion, d'ajustement, etc. Ce chapitre est consacré à la description de- 
ces tests. 


11.1. Test d'ajustement du modèle de loi choisi 
avec les données initiales 


Supposons qu'on ait postulé que la suite d'observations (11.1) 
est un échantillon extrait d’une population générale de fonction de- 
répartition modèle F,,,4 (X ; 80, . .., 8), où la forme de la fonc- 
tion Fa (C'est-à-dire le type du modèle) est connue, et les para- 
mètres O(, ..., O() peuvent être connus ou inconnus. 
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Les tests décrits dans ce paragraphe sont destinés à vérifier l’hy- 
pothèse 


Ho: Fe (x) = Fapg (&3 04, ..., 06) (11.2) 


en utilisant les diverses notions de distances entre la fonction de 


répartition empirique analysée Fm) (x) (définie sur le vu de l’é- 
chantillon (11.1), cf. $ 5.5) et la fonction de répartition hypothéti- 
que Fiaog (73 0, ..., OU). 


11.1.1. Test du +° de Pearson. Le test du 4° permet de vérifier 
l'hypothèse (11.2) dans les cas où les valeurs des paramètres 80), ... 
..., 00 de la fonction de répartition hypothétique sont inconnues. 
Pour mesurer le désaccord entre la fonction de répartition empirique 
et la fonction modèle, ce test utilise la statistique du %* introduite 
dans le n° 6.2.1 (cf. formule (6.20)). La procédure de test de l’hypo- 
thèse (11.2) comporte les étapes suivantes. 

4. L’intervalle des valeurs de la variable aléatoire E est divisé 
en Æ intervalles de groupement AÀ,, ..., A, pas forcément égaux. 
Cette partition doit nécessairement remplir les conditions suivantes: 

a) le nombre total Æ d’intervalles doit être =8*); 

b) chaque intervalle de groupement doit contenir au moins 7 
à 10 valeurs observées de Ë, et il est souhaitable qu'il y ait à peu près 
le même nombre de valeurs dans chaque intervalle: 

c) si l'intervalle de variation de E est la droite numérique tout 
entière (resp. une demi-droite), les deux (resp. l’un des deux) inter- 
valles de groupement extrêmes seront (resp. sera) des (resp. une) 
demi-droites. 


A 


2. Les estimations statistiques 6(1, . .., 0% des paramètres 
inconnus 80, . .., 0) sont construites (cf. chap. 8) sur le vu des 
données empiriques Zy, Tes + + -» Zn. On admet généralement que la 


procédure la plus correcte de calcul des estimations 80, ..., 00 
est celle qui fait intervenir les données groupées. 

3. On compte les nombres v; de valeurs qui sont tombées dans 
chaque intervalle de groupement A; et on calcule les probabilités 
des événements & € A;, c’est-à-dire les probabilités 


Pi = Fmoa (zi, 6t À ... 6%) — Fmod (zi- 1; 6° ; ... 66) 


de tomber dans les intervalles A; (x8_1 et x! sont les extrémités 
gauche et droite du i-ième intervalle de groupement). 


*) On admet que le nombre s des paramètres est < 7 (en pratique, s & 3). 
Si l'on renonce à cette hypothèse, il faut remplacer la condition a) par une con- 
dition plus forte: k > max (8, s + 1). 
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4. On calcule la valeur de la statistique critique #2 (4 — s —1) 
à l’aide de la formule 


k 
x2(k—s—1) = » Rp | 
im 1 


Ensuite, dans le tableau 2.2a [27], on trouve le point de pourcentage 
100 (1 — «&/2) de la répartition du LT a/2 (4 — s — 1) et le point de 
pourcentage 100 œ/2 de la répartition du Yay2 (4 — s — 1) (comme 
toujours & est le niveau qui est donné a priori). 

Si 


Laye (E—s—1) Sy (k—s—1) € y2,, (k—s—1), 


l'hypothèse que la variable aléatoire £ suit bien la loi de fonction de 
répartition Foy est acceptée. 
L'inégalité 
x (k—s—1)2>%x2, (k—s—1) 


exprime un profond désaccord entre la fonction de répartition em- 
pirique et la fonction de répartition hypothétique Fr,4(x). 
Le cas 


x k—s—1)<Yf_ (&—s—1) 


implique un complément d'étude *). 
Si, par exemple, on teste l'hypothèse de normalité, la fonction 
de répartition hypothétique sera de la forme: 


x (u—-a)? 


1 , TT og: 
Fmoû (si 8, )=-7— Je “du, 


*) Le rejet de l'hypothèse dans le cas où les valeurs de la statistique y () 
sont trop petites semble à première vuc contraire au bon sens. En effet, la 
statistique y(") caractérise le degré du désaccord entre la fonction de répartition 
empirique de la variable aléatoire & et la fonction de répartition hypothétique 
Fmoa: plus y(") est petite, plus ce désaccord l’est. L'idéal semble-t-il serait que 

(ñ) :z 0. Qu'on ne s’y trompe pas: y(*) mesure certes le désaccord entre la 
onction de répartition empirique et la fonction hypothétique, mais c'est une 
mesure aléatoire, c’est-à-dire sujette obligatoirement à une dispersion incontrô- 
lable. De ce point de vue sont aussi peu plausibles les trop petites comme les 
trop grandes valeurs de y(?). Qu’expriment les trop petites valeurs de ÿ(7)? 
Plusieurs choses. Que la fonction de répartition hypothétique est sans doute mal 
choisie: elle dépend d'un nombre artificiellement élevé de paramètres. Que 
la technique d’échantillonnage est incorrecte ou subjective. Que l’analyste 

essayé d’« ajuster » les données empiriques au résultat cspéré, etc. p-_S 
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et les estimations a et o* des paramètres inconnus a et o° seront 


(par xi on désigne comme toujours le milieu de l'intervalle A;). 


Les valeurs de F (2 : a, 0°) nécessaires au calcul des probabilités 
pi sont accessibles, par exemple, dans la table 1.1 [27] des valeurs 
de la fonction de répartition de la loi normale réduite compte tenu 


de la relation (x; a, o) = F (=: 0, 1). Le nombre de degrés 


de liberté de la loi du y* (nous aurons besoin des points de pourcen- 
tage de cette loi) est égal ici à À — 3, où k est le nombre d intervalles 
de groupement. 


11.1.2. Test de la normalité d’une répartition d’après son coeffi- 
cient de dissymétrie, son coefficient d’aplatissement et ses écarts 
moyens. Pour vérifier approximativement qu'une variable aléa- 
toire & est normale sur le vu des observations zx;,, . .., zh, on peut 
utiliser certaines propriétés caractéristiques de la loi normale. On 
sait, en particulier, que pour la loi normale les coefficients de dis- 
symétrie f, et d’aplatissement f, sont nuls, que l'écart absolu moyen 


O0—=EI|E— 0] est relié à l'écart-type © = VE (£ — a)° par la 
relation 6/6 = V 2/n (cf. n° 6.1.5). 
Vu que nous n'avons affaire qu'aux valeurs empiriques appro- 


chées B, (n) du coefficient de dissymétrie, Be (n) du coefficient d'a- 


platissement, ô, de l'écart absolu moyen et s° (n) de l’écart-type, va- 
leurs qui sont sujettes inévitablement à une dispersion incontrôlable, 
nous ne pouvons exiger la réalisation rigoureuse des relations 


B, (u) = Be (n) == 0; (11.3) 
du =ôns(n)= 7 +. (41.4) 


Mais si l’on postule la normalité de la loi de la variable aléatoire 
étudiée Ë, on peut établir et tabuler les lois de probabilité de B, (n), 
B2 (2), d, (ou de certaines de leurs combinaisons qui serviraient nos 
objectifs) et, partant, déterminer les écarts « tolérables » par rap- 
port à (11.3) et (11.4) ou à des relations déduites à partir d'elles. 
Considérons trois procédés de vérification de la normalité basée 
sur les propriétés de B;, B:, 0 et © indiquées ci-dessus. 
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1. Pour vérifier la normalité d’après le coefficient de dissymé- 


trie B, (2) et lerapport d, = 6,/s (n) des écarts moyens dans les cas 
où la taille des échantillons n'est pas très élevée (n => 25), on aura in- 
térêt à utiliser les tableaux pour le calcul (en fonction des para- 
mètres © et z donnés) des valeurs exactes des points de pourcentage 


100 ©Q de la répartition des statistiques B, (n) et d,. En particulier, 
la procédure de vérification de la normalité est la suivante: on cal- 


cule B, (n) avec la formule (5.33°) et d, avec la formule 


1 < 2 
— D Iri—r(n) | 
d 1=1 


A ——— 
V LD (200 
i=i 


En prenant Q, égal à 0,01 ou 0,05 et connaissant la taille nr de l’é- 
chantillon, on détermine sur le tableau 4.7b de [27] la valeur du 
point Y1.0,(7) de pourcentage 100 Q, ; en prenant ensuite Q, égal à 
0,01, 0,05 ou 0,10, on trouve sur le tableau 4.7a de [27] les valeurs 
du point d,.0, de pourcentage 100 Q: et du point d,.1-o, de pour- 
centage 100 (1 — Q.); si l’une au moins des inégalités 


1 Bi (n) 1 < Y1.0, (n) : 
Anet-Q < da < dn.Q@ 


est violée, l'hypothèse de normalité est rejetée au seuil de significa- 
tion æ& satisfaisant la double inégalité *): 


2 max (Or, Qa) <a 2 (Q1 + Q2) — 20102. (11.5) 
2. Si l’on vérifie la normalité d’une loi d’après les coefficients de 
dissymétrie b, (r) et d’aplatissement B, (n) pour des échantillons de 


*) Quand on aura à tester une hypothèse 4, à l’aide d'une statistique criti- 
que à deur dimensions y") = (y{®, y5?) dont sont connues (tabulées) les ré- 
partitions marginales de ses seules composantes, on se servira des relations et 
estimations suivantes. Soit À un événement lié à la variable y!’ et exprimant 
que le test de l'hypothèse H, a fourni un résultat positif par rapport à la com- 
posante y;"'. Soit B le même événement pour la deuxième composante y£"’. 
Les tableaux des répartitions marginales de y,"? et y£? permettent de définir À 
et B à l’aide de valeurs données peu élevées de Q et Q:, de telle sorte que P (4) = 
= 1—Q, et P (B) = 1—@Q:. On admettra par ailleurs que P{A | B} > 
> P{A}jet P{B | A} > P{B}, ce qui, en principe, ne contredit pas la relation 
logique et stochastique liant vi"? et y:"'. Dans ces conditions, si l’on rejette 
l'hypothèse 77, dans le cas où l’un au moins des événements À et B serait faux, 
on obtient sans peine l'encadrement suivant pour le seuil de signification x: 


max (Q1, Qa) <a << (Qu + Qa) — Q1Q2. 
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taille modérément élevée (n => 50), on peut en plus de la table 4.7b 
de [27] utiliser les tables des points de pourcentage de la répartition 
du coefficient d’aplatissement empirique. A cet effet, il faut calculer 


le coefficient de dissymétrie empirique . (n) avec la formule (5.33”); 
prendre Q;, = 0,01 ou 0,05 et trouver la valeur du point y:1.0, (7) 
de pourcentage 1000, dans la table; calculer le coefficient d’aplatis- 


sement empirique f, (n) avec la formule (5.34”); prendre Q, = 0,01 
ou 0,05 pour trouver les valeurs du point Y2.0, (7) de pourcentage 
100Q, et du point Y2.:-e, (nr) de pourcentage 100 (1 — @.) dans la 
table 4.7c de [27]. Si l'une au moins des inégalités 


” (nr) | LY1.0s (2) ; 
V2.1-0Q (7) < Be (n) << Y2.0, (2) 


est mise en défaut, l’hypothèsc de normalité est à rejeter à un seuil 
de signification « satisfaisant la double inégalité (11.5). 

3. Pour vérifier la normalité d’une loi d’après les coefficients de 
dissymétrie et d'aplatissement pour des échantillons de taille assez 
élevée (n est de l'ordre de 10°), il est préférable de se servir de la nor- 
malité approximative (asymptotiquement par rapport à n) de la 


répartition des coefficients de dissymétrie b, (nr) et d’aplatissement 


B, (n) empiriques. Signalons toutefois que la loi de B, (7) converge 
très lentement vers la loi normale: même si rx est de l'ordre de plu- 
sieurs centaines, on peut mettre en évidence l’important écart entre 


les valeurs exactes des points de pourcentage de la loi de Be (2), 
trouvées dans la table 4.7c de [27], et les valeurs approchées des mé- 
mes points de pourcentage, calculées à l’aide de l’approximation 


EP 


s 6 24 225 

ce (= ir VA - ma) 
normale de paramètres +1; tes _. 5) de la 
répartition de B, (2). Ceci est, en particulier, la cause des trop gros- 
siers résultats que l’on obtient lorsque dans la vérification de la 


normalité d'après B, (n) et Be (n) on se sert, pour des r relativement 
peu élevés, de la normalité approchée pour trouver les points de 


pourcentage des répartitions de f, (n) et Ba (nr). 

Si la taille de l’échantillon est assez grande (de l’ordre de 10°), 
‘on peut mettre en œuvre la procédure suivante de vérification de la 
normalité de la variable aléatoire E sur le vu des observations 
Lys - ee) Tn: 


on calcule les coefficients empiriques B. (n) et B, (n) avec les 
formules (5.33) et (5.34”); 
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on détermine les écarts-types des coefficients b, (n) et Ba (n} 
avec les formules (cf. [76]): 


c, = VV = RE mets Ve St) (1— at): ; 


… vé f 2han(n—2)(n—3) œ 24 fa 225 \ 
=V vi,=y (n+1)2(n+3) (n+5) AT Rx) : 


pour q donné proche de l'unité (par exemple qg = 0,95) on trouve 


sur la table la valeur du quantile U q de la loi normale; 
si l’une au moins des inégalités 


| B, (n) pe Rares ; 


b, + < Ua: ui 


est violée *), l'hypothèse de la Die de la variable aléatoire E 
est rejetée à un seuil de signification «& satisfaisant (11.5), où Q, — 
= Le — 4 — qg, c'est-à-dire que 2(1—qg)<a<4(i — q) — 
— 2 (1 — g). 

c! test de normalité admet plusieurs modifications différentes. 
On peut, en particulier, utiliser une statistique à une dimension de 
la forme 


x? = CinBi + ConBa 
où Cin et ce, sont des coefficients > 0 dépendant de 7. C'est ainsi 
qu’on est conduit à la statistique x°, si, pour mesure du désaccord 


entre la densité de probabilité empirique f (x) et la densité théorique- 
de la loi normale f (x; a, o*°), on prend l’analogue continu de la 
statistique %* dans le test 


.  Lfn)—f() 12 
nn | OO ge 
où t — (x — a)/o. Pour obtenir une expression approchée de #* 


9 


à partir de #°, il faut développer f,(t) en série de Edgeworth (cf. 
[40, n° 17 7) et se limiter aux trois premiers termes. Mais les lois 
exactes (pour chaque n fixe) des statistiques 4° n'ont pas été calcu- 
lées, quant aux approximations basées sur la normalité asymptoti- 


que de B (n) et Be (n), elles sont trop grossières. 
*) La deuxième de ces inégalités prend en considération le biais de Le ES 


tion Ba (n): siz,,...,z, est un échantillon normal, alors EB, (n)= —— = j 


(et non pas Eh, (n) = Ba = 0). 
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11.1.3. Test de Kolmogorov-Smirnov et son application à la 
construction de la région de confiance pour la fonction de répartition 
inconnue. Le test de Kolmogorov-Smirnov permet d’éprouver l’hy- 
pothèse (11.2) lorsque la fonction modèle Fuoa (x) = Fo (x) est 
entièrement connue, c'est-à-dire ne dépend pas de paramètres incon- 
nus. 
Statistiques du test de Kolmogorov-Smirnov et leurs répartitions. 
Soit F9 (x) une fonction de répartition empirique. Introduisons les 
mesures suivantes du désaccord entre F() (x) et Fo (x): 


D, = sup | F° (2) —Fo(z) |; 

x=R! 
DA = sup (FC (2) — Fo (x); (11.6) 
D, =sup (P, (x) — F° (x). 

ER! 


Les statistiques V rD, et V rD; sont les statistiques respectives des 
tests de Kolmogzorov et de Smirnov. Ceci étant, 


D, = max (D;, D;). 


Pour utiliser pratiquement le test de Kolmogorov-Smirnov, on met 
les statistiques D,, D; et D; sous la forme: 


D = max (4); 


1<i<n \" 

D, = max (ti — 2) ; (11.7) 
1Z<i<n Fe 

D, = max (D;, D;), 
1<i<n 


où té; = L'o (x), c'est-à-dire que t; est la valeur prise par la fonction 
de répartition hypothétique au point à de la série variationnelle. 

Les fonctions de répartition exactes des statistiques D,, Di 
et D; sont connues [27], [122]. Exhibons seulement celle de D*: 


P{Di <d}=— 


0, d<0; 
[n-nd] £ : 
={1— > c(i+a)  (1—1-a), 0<a<1; 
1, d>1, 


où [n—nd] est la partie entière de r — nd. 
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Dans la pratique, on se contente des fonctions de répartition li- 
mites des statistiques V rD, et V n Di: 


lim P(VnD, <à)=K(à); 


ñn—00 


lim P(VnDi<A)=S (à), 


fn 


| PSE S —1\h p= 2h1}1 . 
Æ (à) = d: 2 2 HS De (11.8) 
0, À <0; 
4—e-2%, 1>0; 


S()= 0. _, (41.9) 


La fonction de répartition limite de la statistique V r D; est con- 
fondue avec S (A). 


S'agissant de la fonction de répartition limite de la statistique de 
Kolmogorov V r D,, on sait [77] que si X, (À) est la fonction de 
répartition exacte de la statistique Y r D,, alors X, (À) >K (à) 
pour tout n, et l'erreur maximale commise, en remplaçant la fonc- 
tion de répartition exacte par la fonction de répartition limite pour 
n > 60, est de l’ordre de 0,8-10-*. 

Région de confiance de la fonction de répartition. Vu que la 
fonction de répartition de la statistique de Kolmogorov D, est in- 
dépendante de la répartition inconnue de la population générale et 
que la distance entre F((x) et F04(x) est mesurée à l’aide de l'é- 
cart maximal, on peut inverser le test et utiliser D, pour déterminer 
la région de confiance de la fonction de répartition continue [77]. 
Pour toute fonction de répartition Fo4 (x). on a 


P {PU (2) — de & Fmoa(t)< F0 (2) + dur Vz} = 1 — a, 
(11.40) 


où d, est la valeur critique de D,, correspondant au seuil de signifi- 
cation «. 

La région de confiance est donc la bande + d, le long de la fonc- 
tion de répartition empirique Æ("{x) et la fonction théorique 
Froalz) est entièrement contenue à l’intérieur de cette bande au 
seuil de 1 — &. 

En se servant de ce résultat, on peut établir des estimations de la 
taille de l'échantillon, nécessaires pour approcher la fonction de 
répartition avec la précision demandée. 

Pour a< 0,2 et n > 80, on a 


Â — 
de y —Lm</Vr. (41.14) 
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Posons, par exemple, & = 0,05. Pour un échantillon de taille n, 
l'écart entre la fonction de répartition théorique et la fonction de 
répartition empirique est & À = 0,61/V n au seuil de 0,95. Pour 
n —= 100, on a À = 0,061 


11.1.4. Test du wo? (Cramer-Mises-Smirnov). La statistique de 
ce test est la distance en moyenne quadratique entre les fonctions de 
répartition théorique et empirique: 


ae noë=n | (Fo) F7 (x) dFo(x). (11.12) 


Cette statistique est utilisée dans les applications sous la forme sui- 
vante: ; 

- 2112, ! 

Wie D (Ft) 5) + (11.13) 

i=1 
Si l'hypothèse H, est vraie, la loi de la statistique rw converge pour 
n— oo vers une loi limite de fonction de répartition a, (x). La table 
de cette répartition est donnée dans [27]. 


11.1.5. Modifications des statistiques des tests de Kolmogorov- 
Smirnoy et du w°? pour les échantillons de petite taille. Les fonctions 
de répartition des statistiques D$, D;, D, et Wi tendent rapidement 
vers les fonctions de répartition limites lorsque la taille r de l’é- 
chantillon croît. Si la taille »r de l'échantillon est petite, le désaccord 
entre la fonction de répartition limite et la fonction de répartition 
correspondant à n fini peut être considérable, ce qui nécessite l'usage 


Tableau 141.1 


ni tiee Statistique modifiée 


Aile droite de la répartition 
Vr Dh | Di= Di (Vn+0,12+0,11/V n) 
VaDn | Dn=Dr(Vn+0,12+0,11/V°n) 
VrDn |D,=Dn(Vn+0,12+0,11/V n) 


WA 2 (WE —0,4/n-+0,6/n2) (1,0+41,0/n) 


Aile gauche de la répartition 


VnDn | Dn=Dn(Vn+0,275—0,04 Vn) 
Wi Wa=(Wa—0,03/n) (1,0+0,5/n) 
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des fonctions de répartition exactes et des tables respectives. Mais 
par une transformation peu compliquée des statistiques initiales, on 


peut obtenir des statistiques D;, D;, D, et W: dont les fonctions de 
répartitions concordent bien mieux avec les fonctions de répartition 
limites pour »# petit [128]. Ces modifications sont données dans le 
tableau 11.1. 


Si l’on se sert de tests basés sur les modifications D+, D;. D, 


et W:, on ne pourra faire intervenir que les fonctions de répartition 
limites de V n Di, V nr D;, V nr D, et W2 respectivement. 

11.1.6. Technique statistique de réalisation pratique des tests non 
paramétriques. La méthode d'application des tests non paramétri- 
ques envisagés est dans les grandes lignes la même. Soient K, et 
P (x) la valeur de la statistique d'un test et sa fonction de répartition 
(exacte ou limite). Pour éprouver une hypothèse, il faut 

1) ranger les éléments de l'échantillon par ordre de grandeur 
croissante ; 

2) calculer la valeur de la statistique associée au test X, (ou de 
la modification correspondante); 

3) calculer la probabilité &« = 1 — P (X,) ou comparer la valeur 
A, aux points de pourcentage de la répartition correspondante. 

Si la probabilité « = 1 — P (K,) est petite (X, est grand). 
c'est qu'un événement peu vraisemblable s’est produit et l'hypothèse 
que la série d'observations (x,...., z,) suit la loi Sos tulée Fo (x) 
est rejetée. quant au désaccord entre FA (x) et F, (x), il ne peut 
être explique par le caractère aléatoire de l'expérience. L'hypothèse 
H, est parfois rejetée pour des valeurs À, trop petites et, par suite, 
à des seuils & — 1 — P (K,) proches de 1*). 

Exemple 11.1. Appliquons les testsdu D, et du w pour vérifier 
la qualité d’un générateur de nombres uniformément répartis sur 
l'intervalle (0. 36). 

Supposons que le générateur ait délivré les nombres: 23 18 Î 
16 2 3 20 4 7 O0. Les résultats des calculs sont représentés sur le 
tableau 11.2. 

Les pe (LL. 1) et (11. _. nous donnent: D,, — 0,4056: 
VRDi0 = 1,2826; Dio = 1,3454; Wio = 0,6209 :; Wio — 0.5335. 
AReLN En en se servant des At des fonctions de réparti- 
tions limites pour Jr D, et W® de [27], on trouve pour les modifi- 
cations D,, et W,,: 

P (D, > 1,3454) = 0,05; P (Wio > 0,5335) = 0,048. 
Nous n'avons donc aucune raison de rejeter l'hypothèse concernant 


l'uniformité de la répartition des nombres délivrés par le générateur. 
On peut aboutir au même résultat en comparant les valeurs de 


*) Voir note de la page 299. 
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Tableau 11.2 

FO) (x) = a 
K{) FoGo=t; | Lt, | 1-2 
= Fa en 

1 0 0,1 0 0,1 —0,05 
2 I 0,2 0,0278 0,1722 —0,1222 
3 2 0,3 0,0556 0,2444 —0,1944 
4 3 0,4 0,0833 0,2167 —0 ,166: 
5 & 0,5 0,1111 0,3889 —0 ,3389 
6 7 0,6 0,1944 0,4056 —0,3556 
7 16 0,7 0 ,4444 0,2556 —0,2056 
8 18 0,8 0,5 0,3000 | —0,2500 
9 20 0,9 0 ,5556 0,344 —0 ,2944 
10 23 1,0 0,6389 0,3611 —0,3111 


Do et W° o aux points de pourcentage des répartitions exactes res- 
pectives. "Ainsi, pour œ — 0,05, la valeur critique doos — 0,4092 
et, par suite, D < do"0:- 


11.1.7. Application des tests de Kolmogorovy et du w° pour véri- 
fier la normalité d’une fonction de répartition dépendant de para- 
mètres inconnus. Si la fonction de répartition hypothétique est 
connue aux paramètres près et que ces derniers soient estimés sur le 
vu de l’échantillon, les répartitions limites des statistiques D,, 
Di, Dr, wi ne seront déjà plus « distribution free ». C’est là que ré- 
side leur handicap par rapport au test du #* (cf. n° 11.1.1). Mais 
si l'estimation concerne les paramètres de localisation et d'échelle, 
la répartition ne dépendra que de la forme de la fonction de réparti- 
tion F (x) et pas de ses paramètres [77]. L'indépendance des répar- 
titions limites par rapport aux paramètres de localisation et d’échel- 
le permet de construire, par exemple sur la base des statistiques in- 
diquées, des tests vérifiant la normalité de la répartition. 

Vérification de la normalité d’une répartition par le test du ow*°. 
Supposons qu'on nous demande de vérifier si une fonction de répar- 
tition inconnue est normale. Trois cas peuvent se présenter. 

4. On connaît la variance o et pas la moyenne m. La moyenne m 
est estimée par 

n 
1 
= — Dit 


1=1 


2. On connaît la moyenne m et pas la variance o. La quantité 
o° est estimée par la statistique 


9 


= 
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3. On ne connaît ni la moyenne m ni la variance o. Les valeurs 
de m et de o° sont estimées respectivement par 


n ñ 
TZ = es D Li; s2 — 1 > (x; — x)?. 
i=1 i=1 


Des tables des répartitions limites pour la statistique W* ont été 
dressées pour chacune de ces situations dans le travail [92]. 


Tableau 11.3 [44] 


Paramètres inconnus Paramètres inconnus 


o? | m et 0? 


0,50 0,0627 | 0,1017 | 0,0509 | 0,95 0,1653 | 0,4418 | 0,1260 
0,60 0,0729 | 0,1272 | 0,0585 | 0,99 0,2380 | 0,7245 | 0,1788 
0,70 0,0857 | 0,1635 | 0,0680 | 0,995 | 0,2698 | 0,8506 | 0,2018 
0,80 0,1036 | 0,2200 | 0,0811 | 0,999 | 0,3443 | 1,1490 | 0,2559 
0,85 0,1164 | 0,2631 | 0,0904 | 0,9999 | 0,4527 | 1,5860 | 0,3344 
0,90 0,1344 | 0,3270 | 0,1035 


Tableau 11.4 144) 
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Le tableau 11.3 représente les valeurs critiques d'une statistique 
de type w° à un seuil de signification & compris entre 0,5 et 0,0001. 
L'approximation de l'aile droite des répartitions correspondantes est 
étudiée dans le n° 412.2.7. 

Vérification de la normalité d’une répartition à l’aide de la sta- 
tistique de Kolmogorov. La fonction de répartition de la statistique 
de Kolmogorov dans le cas où la variance et la moyenne sont incon- 
nues a été étudiée et tabulée dans [87]. Les valeurs critiques de la 
statistique D, pour & = 0,1; 0,05; O.01 sont représentées sur le 
tableau 11.4 (les paramètres m et o* sont tous deux inconnus). 


11.2. Test des hypothèses d’homogénéité et de symétrie 
d’une répartition 


Soient donnés # > 2 échantillons indépendants constitués 


respectivement de 71. ..., n, observations indépendantes: 
Ti de 
Yi: - + -+ Un, : 
Z1» Eng 


L'hypothèse d'homogénéité exprime que les populations générales 
d'où sont extraits les échantillons sont identiques et, par conséquent, 
ont les mêmes fonctions de répartition: 


H:Aht)=PRt)=...-="(=F(2), (1114 


où F; (x) est la fonction de répartition de la i-ième population géné- 
rale. Le cas particulier le plus fréquent dans les applications est 
celui où 4 = 2 

Le test de l'hypothèse de symétrie consiste dans ce paragraphe à 
s'assurer que la fonction de répartition est symétrique par rapport 
à un point donné nu: 


Hot F(a+p)=1—F{(u— 7). (11.15) 


Si la répartition admet une densité, l'hypothèse H, revient à veri- 
fier que cette densité est symétrique (par rapport au point pu). 


11.2.1. Tests d’homogénéité basés sur les fonctions de répartition 
empiriques. Traitons le cas de deux échantillons à une dimension 
(k = 2). Soient Zi + + +5 Léna) CÙ Yu + + ++ (ns) les séries varia- 
tionnelles associées au premier et au deuxième échantillon. Nous 
pouvons définir maintenant deux fonctions de répartition empiri- 


ques all (x)et F£'° (x). Comme dans le n° 11.1.4, introduisons les 
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statistiques suivantes : 


D, n, = Sup (F9 (x) — FT (x) ; 
Du, = Sup (F0 (x) — FO (2)) ; (11.16) 
Dains= max (Dai,nss Dis, n)=Sup | F0 (2) — FT (a) |. 


Si l'hypothèse de base est vraie, les statistiques Din et Dan, 
ont la même fonction de répartition, donc on n’étudiera que l’une 
d'elles, disons, Df, 1, Sans nuire à la généralité, on peut admettre 
que 7: n,. Supposons maintenant que les fonctions limites F, (x) 


et F, (x) sont continues et que l'hypothèse A, est vraie. Supposons, 
enfin, que n7.—>00 et que np =  _ Sous ces conditions, les varia- 
1 2 


bles aléatoires V no Dé,n,, et V RoDain, ont les mêmes fonctions 
de répartition limites S (À) et X (À) que leurs analogues (11. 6). 
Les fonctions de répartition des stastistiques (11.16) pour 7, = ñ: 

= n finis ont été établies par B. Gnédenko et V. Koroliouk (61] 
(pour des valeurs rationnelles de À = k/n): 


crth+i 
P (DS) =1-—# “a (11.17) 
P (Dn<+)= >t- DE, r=[-<]. 4118 


Les tables des répartitions exactes des statistiques D,, n, et Da,, n, 
dans le cas général sont accessibles dans [27]. 

En pratique, pour alléger les calculs on peut déterminer les quan- 
tités DE,,n, et Da, n, à l’aide des formules : 


Din max (JF (uu)) = 


t<i<n, ‘ 73 
= {Fr : (41.19) 
Du mex (F5 un) 1) = 
LILNs 


Le = — pin - — LR e 
—_— yes {— FF (z«)} ? Da, n, — MAX (Das, LE Das, ns). 


Signalons une très importante propriété des tests d'homogénéité 
basés sur les statistiques (11.17), (11.19): ces tests sont convergents 
pour toute hypothèse concurrente de la forme 


H,: Fi (x) # Fa (à), (11.20) 
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c'est-à-dire que, pour toute hypothèse concurrente de la forme (11.20), 
la probabilité de rejeter A, (ici (11.14) pour À = 2)) tend vers 1 lors- 
que ,, 22—+> ©, de quelque nature que soit la différence entre 
F\ (x) et F, (x) et quelque petite qu'elle soit. 

La région critique de la statistique V r9Dh.. n, eSt le domaine des 
grandes valeurs *), c’est-à-dire que l'hypothèse d’homogénéité 
est rejetée si 

V' Ro Das, ns > da Mis Pa), 
où dy (71, n2) est un point critique de la fonction de répartition de la 
statistique V noDn:. n, au seuil de «. 

Les grandes valeurs sont critiques également pour la statistique 

fin (Dai n,)- Mais la statistique Dr, », (tout comme D;,. à,) 
peut prendre des valeurs strictement négatives. Cela exprime qu’une 
des fonctions de répartition empiriques est plus grande que l’autre 
sur l'intervalle tout entier des observations: cette conclusion est 
incompatible avec l'hypothèse nulle concernant l'égalité des fonc- 
tions de répartition limites pour les valeurs assez grandes de »", 
et 72. Ainsi, pour #1; = 72, on obtient, grâce à (11.17), 


P (Din) 0) Æ 1— Ci /Cin = 1/n,. 


où Dih,, représente Di, à. 

Pour n,> 20, cette probabilité est << 0,03. Donc, si r,, rm > 
> 20, le domaine des valeurs strictement négatives des statistiques 
correspondantes doit être considéré comme une région critique pour 
l'hypothèse nulle. 

Remarque. Nous avons pu obtenir la fonction de répartition des 
statistiques associées aux tests D, n,, Da,, n, en conjecturant la con- 
tinuité des fonctions de répartition limites respectives F; (x) et 
F; (x). Par ailleurs, en pratique on a souvent affaire soit à des va- 
riables aléatoires discrètes, soit à des données groupées. Les formules 
(11.19) pour les statistiques D>,, n,, Dn, .n, peuvent être appliquées 
à ce cas aussi sans aucun changement, mais le seuil de signification 
de l'hypothèse nulle sera inférieur au seuil donné [67]. Ceci exprime 
que la probabilité pour la statistique associée au test d'être supé- 
rieure au point de pourcentage 100c calculé en postulant la continuite 
sera <Z «a et, par suite, la probabilité de rejeter l'hypothèse nulle 
est plus petite si les données sont groupées. 

Si nous avons affaire à À > 2 échantillons de même taille (nr; = 


= No =... — n;?), on peut se servir de la généralisation suivante 
des statistiques : 
DP,, = max SUP FE (x) — F$ (a) 1. (11.21) 
j 2% 


*) Au sujet des petites valeurs des statistiques critiques voir la note de la 
page 299 
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Pour 4 = 3, on trouvera dans [44]:des tables de la répartition de la: 
statistique (11.21). 

Exemple 11.2. Le tableau 11.5 représente des données (convention- 
nelles) concernant le salaire de nr, = 100 et nr, = 100 employés de- 
deux secteurs industriels. Vérifions à l’aide des statistiques (11.16). 
l'hypothèse que les fonctions de répartition F, (x)et F, (x) du salai- 
re des employés du premier et du deuxième secteur sont confondues. 


Tableau 11.5- 


Nombre d'employés Nombre d'employés 


Salaire men- Salaire men- 
suel, en Premier Deuxième suel, en Premier Deuxième 
roubles secteur secteur roubles secteur secteur 
130-150 4 1 250-300 22 34 
450-170 4 Î 300-350 3 7 
170-200 15 S 350-400 1 3 
200-250 51 43 _ 3 


Le tableau 11.5 concerne des données groupées. Les tests basés- 
sur les statistiques (11.16) et (11.19) sont approximatifs. En considé- 
rant les valeurs prises par les fonctions de répartition empiriques. 
aux extrémités droites des intervalles, on obtient les données sui- 
vantes pour le calcul des statistiques critiques (tableau 11.6). 

D'où 
Di00) = 0,21; Dioo) = — 0,03; Duoo = 

—= max (Dion, Dion) = 0,21. 
La répartition de Gnédenko-Koroliouk (11.17) nous donne 
- = 99 
P (Dion < —0,03)< P (2,69 <0) = 1— 75 — 0,01, 


autrement dit, si les fonctions de répartition F; (x) et F: (x) sont. 
égales (i.e. l'hypothèse A7, est vraie), la probabilité que la statisti- 


Tableau 11.6- 


1 | F7 | FD Gp | FE GG | FU (x) = FE (6 (y) 

1 150 0,04 0,01 0,03 

2 170 0,08 0,02 006 

3 200 0,23 0,10 0213 

4 250 0,74 0,33 0/21 

5 300 0,96 0,87 0:09 | 
6 350 0,99 0,94 0,05 | 
7 400 1:00 0,97 0°03 

8 500 1:00 1,00 0 
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que Dioo, prendra des valeurs strictement négatives pour nr — 100 
-sera inférieure à 0,01, et, par suite, l'hypothèse Æ7, doit être rejetée 
au seuil de 0,01. 

Considérons maintenant la statistique V roD(n): 


nn 


No — RER += 50 ’ V ro D,100) —  50.0,21 == 1,4849. 


La répartition limite de la statistique de Kolmogorov Æ (À) nous 
-donne 


P(V r Duo >1,4849) = 1 — Æ (1,4849) & 1 — 0,975 = 0,095. 


Donc, l'hypothèse que les fonctions de répartition sont égales est 
aussi rejetée au seuil de 0,025. On retrouve ce résultat en comparant 
V noD(m aux points de pourcentage de la répartition exacte. Les 
niveaux des tests Den et VroDm) ne sont pas confondus dans cet 
exemple et l'hypothèse /7, est moins probable par le test D; que par 
le test V roDu). 


11.2.2. Test d'homogénéité du 3°. Si les données sont groupées, 
-chose qui est fréquente en pratique, on peut <e servir d'un test du 
x* pour vérifier l'homogénéité. 

Soient donnés À > 2 échantillons de tailles n; (i = 1, ..., k) 
-et supposons que les données de chaque échantillon sont groupées 
dans r classes (intervalles). Désignons par ‘';; le nombre d'éléments 
du j-ième échantillon contenus dans la i-ième classe. La statistique 
associée à ce test est [40]: 


r  k (vy— Vi" :5 } rh 2 
1= 1 J— 


i= 1 = 


Ÿ Ÿ Ÿ 
Vi À Vip Ve 2 Nip NT D hi. 
l=i =! i=!1 
Pour k = 2, la statistique (11.22) devient 
 (h_) 
ah Si re 
. re Hi Vi 


i=1 


| (11.23) 


Où u;, Vi (ê = 1, ..., r) sont les nombres respectifs d'éléments du 
premier et du deuxième échantillon contenus dans la i-ième classe. 
Dans le cas de l'hypothèse nulle, la quantité (11.22), (11.23)suit 
une loi du 4° à (r — 1)(4 — 1) degrés de liberte. 
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Exemple 11.3. Appliquons le test du 7° aux données de l’exem- 
ple 11.2. Les quantités nécessaires au calcul de la valeur de la statis- 


tique critique sont indiquées dans les deux dernières colonnes du 
tableau 11.7. 


Tableau 11.7 


| Fréquences 
Intervailles des salaires 
en roubles 


L— 


130-150 
150-170 
170-200 
200-250 
250-301) 
300-550 
350-400 
400-3500 


LU O1 où 
HnL(, 
ES do 1 Ut 
S 
[CXe RS EL 


4 
4 
5) 
1 
2 
3 
1 


1° 
D OS et LS D ee pen 


= 


[| 
ww 10 


Trouvons la valeur de la statistique associée au test : 
8 (E- Vi 


É=nn Css M = 14,582. 


Les tables des points de nd de la loi du 4 àr—1—=7 
degrés de liberté nous donnent 505 (7) — 14,067. Donc, 
l'hypothèse d'égalité peut être rejetée à un seuil 4? Æ 0,05. 

Exemple 11.4. Le tableau 11.8 représente la répartition des reve- 
nus d’après le recensement fait en Suède en 1930 ([40], tableau 30.6.2). 

Si l’on compare la répartition des revenus des ouvriers de l’indus- 
trie dans les tranches d'âge de 40-50 ans et 50-60 ans, on trouve que 
4° = 840,62 avec 5 degrés de liberté, ce qui dénote une très grande 
différence entre les répartitions. Mais pour un groupe plus homogène 
d'O.S., la comparaison des répartitions des revenus pour les mêmes 
groupes d'âge donne #? = 4,27 (1 — F,:5 (4,27) & 0,51), de sorte 
que les deux derniers échantillons peuvent être considérés comme 
homogènes. 


11.2.3. Tests de rang d'homogénéité. Les tests de rang d'homo- 
généité utilisent les numéros des observations dans la série variation- 
k 


nelle obtenue en oordonnant l'échantillon global de taille 7 — » n;. 


ii 
Le numéro de l'observation x; dans l'échantillon ordonné s'appelle 
ordre ou rang et sera désigné dans la suite par R;,. 


316 TRAITEMENT STATISTIQUE PRIMAIRE DES DONNÉES 


Tableau 11.8 


Tous les ouvriers et employés 


(5 degrés de liberté) (5 degrés de liberté) 


de l’industrie Ouvriers spécialisés 
lle de Groupes d'âge Groupes d'ige 
couronnes 

40-50 50-00 

0-1 71 5 
1-2 430 324 
2-3 1 072 594 
3-4 1 609 1 202 
4-6 1 178 903 
158 112 

Total: | n1 = 4 518 | Na = 3 489 
4° = 840,62 12= 4,27 


On étudiera les tests de rang linéaires dont les statistiques sont de 
la forme: 


4 
K= 2 o(Ri a) (11.24) 
= 

où la sommation est étendue aux seuls éléments du premier (j = 1) 
ou second échantillon (j — 2). Pour fixer les idées, on admettra que 
la sommation est étendue aux éléments du premier échantillon. 
Les valeurs de la fonction de rang œ (R;.,) s'appellent eodes. La ré- 
partition des statistiques de ces tests converge rapidement vers la 
répartition normale lorsque la taille des échantillons croit. 

Les tests proposés plus bas sont convergents pour l'hypothèse d’hé- 
térogénéité lorsque cette hétérogénéité est due à l'inégalité des para- 
mètres de localisation (par exemple, les moyennes, les médianes) des 
répartitions. Si l'on a affaire à deux échantillons, on peut écrire les 
hypothèses concurrentes sous la forme: 

Hi: Fi(xz)=F,(z—u), u=0: les répartitions sont 
décalées l’une par rap- 
port à l’autre; 


H,: Fi(z)=F,(z—p), n>0: la deuxième répartition 
est déplacée à gauche 
par rapport à la pre- (11.25) 
mière ; 

H,:: Fi(z)=F,;(x—u), up<0: la deuxième réparti- 
tion est déplacée à 
droite par rapport à 
la première, 
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l'hypothèse nulle (c'est-à-dire l'égalité des fonctions de répartition) 
étant H,:uo = 0. Ces tests peuvent aussi être utilisés pour les hy- 
pothèses suivantes: 


Ha : F1 (x) < Fo (x); 
(11.26) 
Hoo ? F1) > Fi (x), 


autrement dit, la fonction de répartition du deuxième échantillon 
est « stochastiquement strictement inférieure » et « stochastique- 
ment strictement supérieure » à celle du premier respectivement 
pour Ho et Ho. 

Test de Wilcoxon-Mann-Whitney. La statistique de ce test est 


de la forme 


S= ÙY R;n. (11.27) 


i=! 
Les codes sont ici les rangs des observations. La statistique S est 
parfois appelée statistique de la somme des rangs. On fait souvent 
appel à la statistique équivalente 


U=S—+ nr +1). (11.28) 
Si l'hypothèse nulle est vraie, on a 
ES—Æmmtmt+i) EU=mms; (11.29) 
1 
VS = VU =-5 (ut) ny. (11.30) 


Si ry, r2— oo de telle sorte que 0 << lim ni/n, = à << , la fonc- 
tion de répartition de U converge vers la fonction de répartition 
d'une loi normale dont la moyenne et la variance se déduisent des 
relations (11.29) et (11.30) respectivement. La convergence vers la 
d- PU est très rapide et elle est déjà efficace si n, et n° > 8 
77]. 

L'approximation suivante *) 


_ nf+nitninotni<ne | 
P(SL=D(r)+p(r) (x — 3x) MEL CPC RESTE VS (11.31) 
où À (x) et p (x) sont respectivement la fonction de répartition et la 
densité de probabilité de la loi normale réduite (cf. n° 12.1.2) de la 
variable … 

z=(t—EsS +0,5)/V VS 
est encore plus exacte. 


*) Fix L., Hodges J. L. Significance probabilites of the Wilcoxon test. — 
AMS, 1955, vol. 26, 301-312. 
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Test des codes normaux (Fisher-Yates-Terry-Hoeffding)*). La 
statistique de ce test s'écrit 


ni 
Les 1 . 41 29 
C=— > E (R:, ns A), (11.32) 
i=1 
où E (r, n) est l’espérance mathématique de la statistique de rang r 
(cf. n° 12.2.10) dans un échantillon de taille n = n, + n, extrait 


d’une population générale suivant la loi normale réduite. 
Si l'hypothèse nulle est vraie, alors 


EC = 0; (11.33) 


VC= D [E (r, n)]*. (11.34) 
i=! 
La répartition limite converge vers la répartition normale lorsque 


n 


Pi, A2 ©; la quantité (< > [E (r, ne)" = 0,97 pour r = 50, 


re 
elle tend ensuite vers {. de sorte que VC Æ n./(n:n;) pour de 
grands ». On se sert parfois du test de Van der Waerden [138] de 
statistique 


UT 


vb ee). ass 


où Ÿ (-) est la fonction inverse de la fonction de répartition de la 
loi normale réduite (cf. n° 12.2.1). Ce test est asymptotiquement 
équivalent au test C. Si l'hypothèse nulle est vraie, alors 


EF — 0; 


Le TETE 2 ( _. Je 


L'application des tests S. C et V implique la procédure de calcul 
suivante. 

1. Les échantillons sont réunis et l'échantillon global est rangé 
par ordre de grandeur croissante des observations. 

2. On calcule la valeur de la statistique du test ÆX à l’aide des 
rangs du premier (ou du deuxième) échantillon (ce peut être une 


*) Terry M. E. Some rank order tests which are most powerful against, 
specific alternatives. — AMS, 1952, vol. 23, 346-366. 
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valeur de S, C ou V), puis, la quantité A, = (X — EK)/V VK. 

3. On compare la valeur de 44 avec les quantiles de la loi norma-- 
le réduite (ou bien on calcule la valeur de la fonction de répartition 
® (4x) de la loi normale réduite). Selon l'hypothèse concurrente, la 
région de rejet de l'hypothèse nulle au seuil de & est définie par les 
inégalités (sous réserve que le calcul de la statistique du test ait été- 
effectué sur les éléments du premier échantillon): 


| 4x [Zu _« pour H;;'; 
2 


Ak>us…, pour H, et H,,; 
Ar LU pour Hs et Hz. 


Si les échantillons sont de petite taille, on peut utiliser les tables. 
des valeurs critiques des statistiques respectives *) pour obtenir un. 
résultat plus exact. 

De tous les tests de rang concernant les hypothèses d'égalité des. 
paramètres de localisation pour 7 assez grand, le plus puissant est 
le test des codes normaux, et le moins puissant, le test de \Wil- 
coxon (si x n'est pas grand, le test de Wilcoxon peut être plus puis- 
sant que celui des codes normaux pour certains types de fonctions de 
répartition modèles). En particulier, pour les fonctions de répartition 
normales, le test des codes normaux est de même puissance que le 
test { envisagé au n° 11.2.7. Une telle analyse comparative des pro- 
priétés des tests est accessible dans [77]. 


11.2.4. Test non paramétrique de l’hypothèse d’égalité des varian- 
ces**). L'hypothèse nulle est la même que la précédente: 


Ho: Fix) = Fax) = F(x). 


Mais l'hypothèse concurrente porte maintenant sur l'inégalité des: 
variances des répartitions 


H,: Fix) = Fx/t) ou 0,/0, = t (t > Ù). 
Ceci étant, on peut dégager une hypothèse bilatérale : 


H;],: T1, les variances des répartitions sont distinctes. 
et les hypothèses unilatérales : 


*) De telles tables sont disponibles pour les tests de Wilcoxon et de Van: 
der Waerden dans {27]; une table des valeurs critiques pour le test des codes 
normaux pour nr, + n, € 20 est accessible dans l’article : Klotz J. On the normal 
scores two-sample rank test. JASA, vol. 59, 1964. 652-664. 

**) En toute rigueur, on aurait dû mentionner la différence des paramètres 
d'échelle. Mais on admet que les fonctions de répartition F, (r) et F, (r) possè- 
dent une variance et l'hypothèse d'égalité des paramètres d'échelle est équiva- 
lente à l'hypothèse d'égalité des variances. 
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Ha : T> 1, la variance de la première répartition est >> à celle 
de la deuxième; 

H;3 : T<1, la variance de la première répartition est << à celle 
de la deuxième. 


L'hypothèse nulle peut être mise sous la forme: 
H, :T —1, les variances des deux répartitions sont égales. 


Pour que l’on puisse appliquer les tests de rang du paramètre 
d'échelle, il faut que les deux répartitions soient de même type, que 
leurs paramètres de localisation prennent la même valeur et que leurs 
densités de probabilité soient continues. 

Le test d'égalité des variances cité plus bas appartient à la classe 
des tests de rang linéaires de la forme (11.24). 

Test de Klotz *). La te de ce test est 


=> HT. 


Donc, les codes de ce test sont les carrés de ceux du test de Van der 
Waerden. L'’espérance mathématique et la variance de cette statisti- 


que s’écrivent : 
n 
Eire 2 RICE 


VVi= à CH) -E enr 


La statistique V, suit une “ asymptotiquement normale de moyenne 
EV, et de variance VV,. Pour les petites valeurs de 7, et n2 (n1 + 
+ n2 L 20), il existe une table de points critiques de la fonction de 
répartition exacte de la statistique V, dans le cas de l’hypothèse 
nulle. Pour les grandes valeurs de nr, et #., on peut se servir d’une 
fonction de répartition asymptotique. La méthode d'utilisation de 
ce test dans le cas des hypothèses concurrentes bilatérale et unila- 
térales, est la même que celle appliquée pour vérifier des hypothèses 
de même nature par les tests de rang du paramètre de localisation. 
I1 existe d’autres tests de rang linéaires [67] pour vérifier l’éga- 
lité des variances, par exemple, le test de Mood qui est identique au 
test de Wilcoxon de statistique 
ñn1 4 2 
Si = Dr (Run (n+1)) . 
im1 
*) Klotz J. Nonparametric tests for scale. — AMS, 1962, vol. 33, p. 498-512. 
Cet article contient fa table des valeurs critiques pour »; + Ne € 20. 
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Mais le test de Klotz est en général plus puissant que le test S.. 

La condition d'égalité des paramètres de localisation (la condi- 
tion u —= 0) est essentielle à l’application du test de Klotz (de même 
que les autres tests de rang du paramètre d'échelle), sinon le seuil 
de signification de la statistique du test risque d'être fortement al- 
téré. Si donc l’on présume que ces paramètres sont inégaux, il faut 
les estimer préalablement pour chaque échantillon à l'aide, par 
exemple, des médianes empiriques ou d'autres estimations stables 
du paramètre de localisation (cf. chapitre 10), retrancher les résul- 
tats obtenus des éléments de l'échantillon correspondant et appli- 
quer ensuite le test V.. 

Si les fonctions de répartition F, (x) et F, (x) sont normales, le 
test de Klotz possède pratiquement la même puissance que le meil- 
leur test de Fisher pour ce cas (cf. n° 11.2.8). 


11.2.5. Tests de rang pour k > 2. Les tests de rang d’homogé- 
néité se généralisent de la manière suivante pour k# > 2. On ordonne 
l'échantillon global de taille nr, + na + . .. + n, = net on af- 
fecte à chaque observation un rang correspondant à sa position dans 
cet échantillon. Pour chacune des k répartitions on calcule la quan- 
tité 


ñn; 


K,; = 2 9 (Rn); i—1, ...,k, 


où la sommation est étendue à toutes les observations appartenant au 
i-ième échantillon. Chaque quantité ÆX; suit une loi asymptotiquement 


n 
normale. La sommeS, — D K;est connue, c’est-à-dire que les quanti- 


im! 
tés K; sont reliées par une seule relation linéaire, donc la variable 
aléatoire 


k 
. (Ki—EA ;)* 
H= Dr 
i=1 


suit une loi du y* à À — 1 degrés de liberté si l’hypothèse nulle est 
vraie. En particulier, si pour X; on prend la somme des rangs comme 


dans le test de Wilcoxon, on débouche sur le test de Kruskal-Wallis 
[67] de statistique 


k 
12 si | 
ii 


où S, est la somme des rangs des observations du i-ième échantillon 
de l'échantillon global. 


21—0273 
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11.2.6. Test de symétrie des répartitions. Le test de symétrie 
des répartitions est un problème qui se pose dans l'analyse des restes 
des modèles de régression, en analyse de variance et dans l'estimation 
stable. Considérons le test de symétrie par rapport à un point fixe 
u. On suppose que la loi de répartition admet une densité de probabi- 
lité continue f (x). L'hypothèse de symétrie peut alors être mise 


sous la forme : 
Ho:f(u+z)=f(z—p) (11.37) 


ou en termes de fonctions de répartition 
H:Fu+rx)=1—-F(z- 1). (11.38) 


L'hypothèse (11.37) affirme que la densité de probabilité f (x) 
est symétrique et que le centre de symétrie est le point p. 

Les tests non paramétriques de l'hypothèse de symétrie sont basés 
sur les rangs absolus (par rapport au point p). 

Soit z1, - - -, æ, un échantillon pour lequel on teste l'hypothèse 
(11.37), (11.38). Introduisons les observations transformées 


z=|u—-pl (11.39) 


et formons la série variationnelle z4,, . . .. Zn On appellera le 
rang de la quantité z; rang absolue de x; {par rapport au point p) 
et on le désignera par À ,. Cette transformation ramène le test de 
l'hypothèse de symétrie au test d'homogénéité de deux répartitions 
formées respectivement avec les ailes gauche et droite (par rapport 
à u) de la répartition primitive. 
Soit Z+ l’ensemble des indices des observations z; pour lesquelles 
z; — u > 0, autrement dit, si à € J+, alors x; — un > 0. Les tests 
envisagés ici sont identiques aux tests de rang d’homogénéité du 
n° 11.2.3. 
Le test de Wilcoxon pour un échantillon *) utilise la statistique 
S*= Ÿ R! (11.40) 


dd i,n° 
ie r+ 


Si l'hypothèse nulle est vraie, on a [67] 


Es = n(n+1); 
: (11.41) 


VS*=-n (nr + 1) (2n +1). 


pb 


*) Ce test a été introduit dans l’article: Wilcoxon F. /ndividual comparai- 
sons by ranking methods. — Biometrics Ball. 1945. 1, 80-83. 
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Le test de Fraser-K lotz *) (ou‘test des codes normaux) est basé 

sur la statistique 
C* = 2 E*(Rin, n), (11.49) 
1 + 

où Et(k, n) =E (| V |) est l'espérance mathématique de la 
statistique de rang À dans la série variationnelle de longueur n cons- 
tituée par les valeurs absolues des variables aléatoires normales 
réduites V,, ..., V,. 

Si l’hypothèse nulle est vraie, on a [67] 


+20 : 
EC 7 
7 (11.43) 
VC*=— S'[E*(r, n)f°. 
re=i 


L'analogue du test de Van der Waerden est asymptotiquement 
semblable à celui de Fraser-Klotz. La statistique de ce test est de la 
forme {67] 


exe(s+s fe) 1.4 


iEJ 


L'espérance mathématique et la variance s’écrivent 


- (11.45) 
W=r2[v(+r)] 


es 


où 1 ( )est la fonction inverse de la fonction de répartition de la loi 
normale réduite. 

Tous les tests de rang introduits suivent une loi asymptotique- 
ment normale dont les paramètres sont définis par les formules 
(11.41), (11.43) et (11.45) respectivement. L'application de ces tests 
se ramène à la réalisation de la procédure suivante. 

1. A l'échantillon de départ zx;, . .., z, on associe l’échantil- 
lon z; — [xs — u | (i = 1, ste n). 


*) Ce test a été introduit dans; l’article : Fraser D.A.S. Most powerful rank 
type tests. — Ann. Math. Stat. 1957, vol. 28, 1040-1043. Les tables des codes et 
des valeurs critiques pour n < 10 figurent dans l'article : Klotz J. Small sample 
power and efficiency for the one sample Wilcoron and normal scores tests. — Ann. 
Math. Stat. 1963, 34, 624—632. 


21° 
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2. On range les quantités z; par ordre de grandeur croissante: 
2 < 2 Lee K Zn): 


3. On détermine les rangs des observations 24), . . ., Z(n) COr- 
respondant aux observations primitives pour lesquelles x; — nu > 0 
(ou x; — pu << 0). | 

4. On calcule la statistique du test X+ à l’aide des formules 
(11.40), (11.42) ou (11.44). 


5. On calcule la quantité A+ — (A+ — EK+)/Y VK+. 

6. On rejette l'hypothèse de symétrie si | A+ | est trop grand, 
plus précisément, si est réalisée l'une des inégalités suivantes: 
A+ > U-a/e OÙ At <'u,/2, Où @& est le seuil de signification donné 
de l'hypothèse nulle. Donc, la région critique des critères de symé- 
trie (11.40), (11.42), (11.44) est bilatérale. 

Le centre de symétrie théorique est souvent inconnu. Dans ces 
cas, pour tester les hypothèses (11.37), (11.38), on prend pour point p 
une quelconque estimation du paramètre de localisation, par exem- 
ple, la moyenne arithmétique, la médiane ou une estimation stable 
de ce paramètre (cf. chapitre 10). Dans ces conditions, les tests non 
paramétriques envisagés plus haut sont approximatifs. 


11.2.7. Traitement des coïncidences. L'application des tests 
de rang implique la continuité des lois de répartitions des variables 
aléatoires observées. Mais, dans la pratique, on est toujours confron- 
té à des valeurs discrètes de la variable aléatoire soit que cette varia- 
ble est de nature discrète, soit que les valeurs observées sont arron- 
dies ou groupées. Ce qui fait que certains groupes d'observations 
sont confondus. Voyons quelques méthodes d'application des tests 
de rang dans le cas de coïncidences. 

Si les observations confondues appartiennent à un même échan- 
tillon, aucun problème ne se pose: pour rangs on peut prendre les 
numéros de ces observations dans un ordre quelconque. Si le groupe 
de coïncidence contient des éléments des deux échantillons, les 
méthodes de traitement les plus couramment utilisées sont les sui- 
vantes [671]. 

Méthode du rang aléatoire. Aux observations confondues on attri- 
bue de façon aléatoire (c'est-à-dire avec la même probabilité) des 
numéros (rangs). Dans ce cas, la théorie de la répartition de la sta- 
tistique du test pour l'hypothèse nulle reste en vigueur et on peut 
se servir des habituelles tables et répartitions limites. Mais la puis- 
sance du test sera plus petite que par la méthode du code moyen. 

Méthode du code moyen. A toutes les observations du premier 
(ou du deuxième) échantillon, contenues dans le groupe de coïnci- 
dence, on attribue la valeur moyenne du code pour les observations 
de ce groupe. Dans ce cas, la loi limite de la statistique du test restera 
normale. L'espérance mathématique ne varie pas, quant à la va- 
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riance, elle diminue. Compte tenu des coïncidences, les variances des 
statistiques des tests de Wilcoxon, des codes normaux et de Van der 
Waerden sont données par les formules 


L Ù tri —1) 
VS= VS |1 — = 
nn 
. 8 
= nie F2. 11. 
{ VC = nin—1) Ÿ TiEi; | (1 46) 
J=1 
Le g 
nya 
= D 2 Th 
J=) 
où g est le nombre de groupes d'observations; Tt; (j = 1, . -., £g) 
g 


le nombre d'observations du groupe j (> t; = nr); Ejet +, les codes 
j=i 

moyens sur le groupe j respectivement pour les tests des codes nor- 
maux et de Van der Waerden 

Ces valeurs des variances doivent être utilisées dans les tests de 
rang respectifs. En vertu de (11.46), la statistique du test de Krus- 
kal-Wallis (11.36) se modifie de la manière suivante dans le cas 
de coïncidences : 


tj (Ti — 1) | 


n—n 


m=nf(i=S 


j=1 


(11.47) 


Pour le test de symétrie, considérons seulement le cas où la répar- 
tition admet une densité continue au centre hypothétique u de sy- 
métrie, autrement dit, la probabilité d'obtenir une observation éga- 
le à u est nulle. On a alors les formules suivantes pour les variances : 


& 
. 1) 72 
VS*=+ > [LEE |”; (11.48) 
j=1 
v 1 D+19 ?’ 
VC'=— D t, IE}; (11.48°) 
VV Dre, (11.48) 


où E° est la valeur moyenne des codes E | z |» pour les observations 


du groupe j. On détermine de façon analogue les quantités Ÿ° pour 
le test de Van der Waerden. 
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11.2.8. Test d’homogénéité des populations normales (cas sca- 
laire). A strictement parler, les tests décrits plus bas (le test de 
Student, de Fisher du rapport dispersionnel, de Bartlett, etc.) ne 
s'appliquent qu'aux échantillons (9.3) extraits d’une population 
normale: dans ce cas, on conçoit sans peine que le résultat positif 
du test simultané de l'homogénéité des valeurs moyennes (c’est-à- 
dire de l'hypothèse (9.3b)) et des variances (c’est-à-dire de l'hypothè- 
se (9.3c)) suffit pour conclure que l'hypothèse d’homogénéité des 
fonctions de répartition respectives (c'est-à-dire l'hypothèse (9.3a)) 
est vraie. Des analyses spéciales ont montré toutefois que le test de 
Student est le plus stable pour les écarts des populations générales 
étudiées par rapport aux normales. Ce qui signifie qu'il peut être 
appliqué aux échantillons extraits de populations générales non nor- 
males, à la seule condition que les véritables valeurs du seuil de 
signification et de la puissance du test différent peu des valeurs don- 
nées. 

Le test d'homogénéité de deux échantillons (k = 2) est basé sur la 
statistique critique 


tn, + no — 9) = 20e) 


où z1 (1) et x, (n,) sont les valeurs arithmétiques moyennes des ob- 
servations respectivement du premier et du deuxième échantillon, 


s° l'estimation globale de la variance sur l’ensemble des deux 
échantillons, c'est-à-dire que 
se 1 


= (hu —1)s$(n)+(ns—1)s(n:)]: (11.49) 


ni-Fne 


nn 


D'(i—ri(n)), j=1, 2. (41.50) 
i=i 


5 (0) = 
On sait (cf. n° 6.2.2) que si l'hypothèse d'homogénéité (9.3a) 


est vraie, la statistique t (nr, + n° — 2) suit la loi de Student à 
n, + ns — 2 degrés de liberté. Donc, pour vérifier l'hypothèse 
d’homogénéité, il faut trouver dans les tables des points de pourcen- 
tage de la loi de Student (cf. par exemple [27], table 3.2) le point 


ta ("1 + n3 — 2) de pourcentage 100 + de la loi de Student à r, + 
2 


+ n; — 2 degrés de liberté. Si 


lÉrs + 2 — 2)| < ta (ni+n2—2), (11.51) 
2 
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l'hypothèse d'homogénéité des échantillons {ri1, is, - . ., Tin, } et 
{Tays Too - + -+ Tan,} est acceptée (sinon elle est refusée). 


Remarque 1. Une «trop grande» valeur de £(n, + no — 2), 
c'est-à-dire une valeur violant l'inégalité (11.51), peut être le ré- 
sultat d'une importante différence aussi bien entre les moyennes 
(c'est-à-dire la non-réalisation de l'hypothèse (9.3b)) qu'entre les 
variances (c'est-à-dire la non-réalisation de l'hypothèse (9.3c)). 

Si l'on veut mettre en évidence la cause de l’hétérogénéité des 
échantillons, il faut vérifier accessoirement l'homogénéité des va- 
riances, c’est-à-dire l'hypothèse (9.3c) pour À = 2 (le test de l’homo- 
généité des variances constitue parfois le seul objectif de l’analyse). 
Le test d'homogénéité de deux variances empiriques est basé sur la 
statistique critique 


ni 
Â i _ 
| Tr À Gun) 
F(n—1, n—1)= = : 
Â = 
het > (Taj — Ze (ne))* 


J=t 
qui, on le sait (cf. n° 6.2.3), suit, dans le cas où l'hypothèse (9.3a) 
est vraie, une loi F (nr, — 1, nr; — 1) de Fisher à (nr, — 1, ne — 1) 
degrés de liberté. Si donc 


Fat, m1) (m1, m—1)< 
ner: 
2 


l'hypothèse d'homogénéité des variances est acceptée (sinon, refu- 
sée). Dans les inégalités (11.52), F, (m1, m2) désigne le point de pour- 
centage 100gq d'une loi F à (m,, m,) degrés de liberté (voir, par exem- 
ple, la table 3.5c [27]), & le seuil de signification donné du test. 

Enfin, il est possible que les variances of et oi soient différentes 
(c'est-à-dire que l'une au moins des inégalités (11.52) est violée), 
alors que l’on s'intéresse à l’homogénéité des valeurs moyennes, 
c'est-à-dire à l'hypothèse (9.3b). Dans ce cas, on peut construire un 
test approché basé sur la statistique critique 


Die re de M) #0) 


1 - 1 - | 
Fr ne (n2) 
où si(n;) sont définis par la formule (11.50) et 
Lie 
pr (n1) 
L 
ns qe 
A | RP (2) 
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La dépendance de la statistique critique { par rapport au paramè- 
tre auxiliaire c est prise en considération dans les tables des points 


la (1, n°, c) de pourcentage de la loi de cette variable aléatoire. Ces 
5 


points de pourcentage peuvent être trouvés, par exemple, dans la 
table 4.4 de [27] (dans ces tables #4 (71, n+, c) est représenté par 
= x 


V (c, v1: va, Q), où vx = mx — 1 et Q = +). 


Si, par exemple, 


[Gris ne, Ste (y la €), 


LU] 
L 1 


on en déduit que les moyennes vérifiées sont homogènes. 
Remarque 2. Dans tous les cas où la différence entre les moyennes 
n'est vérifiée que dans un sens (par exemple. on vérifie s'il « est 
possible de considérer que la moyenne du premier échantillon est 
significativement supérieure à celle du deuxième échantillon »), 


pour ordre du point de pourcentage il faut prendre & et non pas J- 


Le test d'homogénéité de plusieurs échantillons (k >> 2, cf. (9.3)) 
est basé sur la statistique critique 


FO (k—A, nitn+...+m—k)— 
; R 
FT D n j (zh (nR)—x (n))° 
Te 7 (11:53) 


2 (n) ? 


R 
— | — 
er ver nn LE 

ai (11.54) 


Rk 

T9 1 Ta 

FD nr 2 1) $ (m9), 
2= 


où x (nr) est la moyenne arithmétique genérale calculée sur la réu- 
pion des À échantillons, et les variances si (n;) empiriques sont cal- 
culées à l'aide de la formule (11.50). 

On démontre que si l'hypothèse (9.3a) est vraie, la statistique 
(11.53) suit une loi Fà (k—1,n +n; +... + n; — k) degrés 
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de liberté (cf. n° 6.2.3). Si donc 


FO (1, n+inr+t...+m—h<F.(k—1, 
PR +... + nx — k), (11.55) 


on accepte l hypothèse d'homogénéité des échantillons (9.3). 

Remarque 3. De même que dans le cas de deux échantillons, 
une « trop grande » valeur de la statistique critique (11.53), c'est-à- 
dire une valeur pour laquelle est violée l'inégalité (11.55), peut être 
la conséquence d'une différence significative aussi bien des moyennes 
(c'est-à-dire de la non-réalisation de l'hypothèse (9.3b)) que des va- 
riances (c'est-à-dire de la non-réalisation de l'hypothèse (9.3c)). 
On aura donc intérêt à vérifier l’homogénéité d’une série (de plus de 
deux) variances empiriques. Cette vérification peut être effectuée, 
par exemple, avec le test de Bartlett (177], n° 24.9) basé sur la sta- 
tistique critique 


>? 


k … 
=q D (1) In (20 (11.56) 
i=Î 


si(n;) 7? 


où s° (n) et si (n;) sont définies respectivement par (11.54) et (11.50), 
et 


réel: 160 


M. S. Bartlett a prouvé *) que si min (n,. ñn2, ..., n,) > 3 
et que l'hypothèse d'égalité des variances (cf. 9.3c) soit vraie, la 
statistique À suit approximativement une loi du y* à À — 1 degrés 
de liberté. Donc, si À << %& (4 — 1), l'hypothèse d'homogéneité 
des variances empiriques est acceptée, sinon, elle est rejetée. 


11.2.9. Test d’homogénéité de populations normales multidi- 
mensionnelles. Dans le cas multidimensionnel, l'hypothèse d’homo- 
généité se formule comme en dimension un (cf. (11.14)): 


Ho: FX) = Fl(X)=... = Fa (X) = F(X), (11.58) 


sauf que À est à p dimensions. 

Le choix des méthodes de test de l'hypothèse (11.58) est bien 
plus restreint qu'en dimension un. En fait, on ne peut appliquer que 
des tests paramétriques en postulant que chaque fonction de répar- 
tition F; (X) (à = 1, ..., k) est la fonction de répartition d'une 


*) Bartllet M.S. Properties of sufficiency of statistical tests. — Proc. Ro y- 
Soc., 1937, A-160, p. 268-282. 
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loi normale multidimensionnelle. Comme en dimension un, certains 
de ces tests, par exemple, les tests du À, de 7°, sont stables pour les 
désaccords par rapport à la fonction de répartition normale et, par 
suite, peuvent être appliqués aux échantillons non normaux. 

On sait (cf. $ 6.1) qu'une fonction de répartition normale multi- 
dimensionnelle est entièrement définie par le vecteur des moyennes 
M; et la matrice des covariances ZX; (i = 1, . .., k). De façon res- 
pective, les statistiques des tests envisagés plus bas sont des fonction- 


nelles des estimations empiriques des paramètres A; et »; (i=1,... 


Dans le cas de deux échantillons (k = 2), la statistique critique 
du test de l'hypothèse d'homogénéité est la quantité [16]. 


T2 — LE M,— M.) S1(M,— AL). (11.59) 
1 2 
Ceci étant, on admet a priori que les échantillons sont extraits de 


populations générales ayant une même matrice des covariances, 
c'est-à-dire que Z, = Ÿ, et 


S= "7 ls — 1) Si + (2 — 1) Sel. (11.60) 


Ce: 1 x : ve Nytna — P—Â me 
Si l'hypothèse nulle est vraie, la variable MP er T 
suit une loi F à (p, nr + ro — p — 1) degrés de liberté. 

Dans le cas de plusieurs échantillons (k >> 2), le test d’homogénéité 
{sachant que les matrices des covariances sont égales) est basé sur 
la A-statistique de [114] 

det (S) 
À det (C) ? 


{ 


n — 


où S — 


k 
T > (nr; —1)S,; est la matrice des covariances de la 
i=1 : 


k 
population globale, n=Ù ni; 
; k 
C=S+— Don (Mi—M)(M;—M) 
i=1 
la matrice des covariances estimée sur l'échantillon global obtenu 


en regroupant les À échantillons, et NM le vecteur des moyennes de 
l'échantillon global. 


En termes d'analyse de variance, S s'appelle matrice de variance 
intragroupe, W 1x n; (M; — ADM; — M), matrice de varian- 
ce intergroupe et C = S + W, matrice de variance totale. On dé- 
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montre que pour À = 2 la quantité À est égale à 


1 


MONTE EE 


c'est-à-dire que À est une fonction monotone de la statistique T 
et, par suite, pour À — 2 les tests de À et de T* conduisent aux mé- 
mes résullats. 

Les valeurs de À sont comprises dans l'intervalle [0, 1], et si 
l'hypothèse nulle est vraie, la valeur prise par À doit être proche de 
1. Une valeur de A de beaucoup inférieure à 1 est une preuve d'hété- 
rogénéité, c'est-à-dire que l'hypothèse nulle doit être rejetée. Mais 
la répartition exacte de À est très compliquée et on se sert dans la 
pratique de statistiques qui sont des fonctions de A. 


Une de ces statistiques est la statistique B (A) proposée par Bart- 
lett [114]: 


B (A)= — (nt) In A. (11.61) 


Si l'hypothèse nulle est vraie, la loi de B (A) se laisse approcher par 
une loi du #4“ à p degrés de liberté. 

Une autre statistique qu'il faut utiliser de préférence pour les 
échantillons de petite taille est la statistique proposée par Rao [114]: 


_AtrA n. 1— pk/2 
DIN SEP (11.62) 


AlTA pk 
Si l'hypothèse nulle est vraie, la loi de cette statistique se laisse ap- 
procher par une loi F à (kp, nna + 1 — pki2) degrés de liberté. 


Les quantités nr et rA ne sont pas nécessairement entières et se cal- 
culent avec les formules: 


n=n—(p—k+1)/2;: 


k® p° + 4 0 2 E 
——— si p+k>s5; 
NA — kK°+ p?—5 P 
| si p+hk®—=5. 


Dans les deux cas, la région critique est le domaine des grandes va- 
leurs. Comme en dimension un, de « trop grandes » valeurs des tests 
(11.59), (11.61), (11.62) résultent de la violation de la condition 
d'égalité des matrices des covariances, bien que les moyennes diffe- 
rent de façon non significative. Pour vérifier l'hypothèse 


HZ =2;=.i3:=2 
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on fait appel à la statistique [16] 


k 
À + p((n—#) In (det (S) — Ÿ (n; — 1) In (det (Z .)), (11.63) 
où — 
ppt Q ! i 
1H SR 1 1 
p=1 (k—1)(p+1 (Z n;—1 €). 


is | 
Si À, est vraie, cette statistique suit une loi asymptotique du #*° 
à (k — 1) p (p + 3) degrés de liberté. La méthode d'application 


du test (11.63) est la même que pour le test d'égalité des variances 
(11.56) en dimension un. La statistique (11.63) est confondue avec 
la statistique (11.56) en dimension un. 


11.3. Test d’in dépendance et de stationnarité 
: d’une série d’observations 


Avant de soumettre les résultats des observations à un traitement 
statistique, il faut s assurer qu ils forment bien un échantillon aléa- 
toire, qu ils sont stochastiquement indépendants (c’est-à-dire que le 
choix des observations n'est pas subjectif, que les observations ne 
dépendent pas de leur rang, par exemple la moyenne de la réparti- 
tion étudiée ne doit pas subir de déplacement de nature monotone 
ou cyclique à mesure que le rang des observations croît, etc.). 


11.3.1. Test des blocs, basé sur la médiane de l'échantillon. Soit 
donné un échantillon zx;, z:, . .- ., x, extrait d'une certaine popula- 
tion générale. Rangeons les éléments de cet échantillon dans l'ordre 
de grandeur croissante: Z(1, Zto)s + + «+ Zn) 


Pour valeur empirique de la médiane zmea (7). on prend (cf. 
chap. 8) l'élément médian (par sa position) de la série variationnelle, 
c'est-à-dire que 


Zméd der n+1) si nr est impair ; 
9 


È 1 : ; 
Tméd (R)= + (Zin/2) + L(n/241)) si n est pair. 


On revient ensuite à l'échantillon de départ x, z2, . - ., z, et à la 
place de chaque zx; on écrira &« + » si x; >> zmea (n) et « — » si x; << 


< ur (n) (les termes égaux à ET (x) sont omis dans cette suite de 
« + »et de « — »). La suite de « + » et de « — » obtenue se caracté- 
rise par le nombre total v (n) de blocs et par la longueur + (nr) du plus 
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long bloc. Par bloc on entend une suite maximale de &« + » ou de 
4« — » (en particulier, un bloc peut être composé d’un seul « +» 
ou d'un seul « — », auquel cas sa longueur est égale à 1). Il est évi- 
dent que si les observations sont stochastiquement indépendantes 
{c'est-à-dire que l'échantillon est aléatoire), l'alternance des « + » 
et des & — » doit être plus ou moins « aléatoire », autrement dit, 
cette suite ne doit pas contenir de trop longues suites de signes « — » 
ou « — », et par conséquent, le nombre total v (7) de blocs ne doit 
pas être trop petit. En sorte que dans ce test, on a intérêt à considé- 
rer le couple de statistiques critiques {v (n); t (n)}. 

Pour construire un test statistique exact d'indépendance, basé 
sur la statistique à deux dimensions {v (n); t (r)}, il aurait fallu 
préalablement trouver et tabuler la loi de probabilité à à deux dimen- 
sions de cette statistique. Nous nous bornerons ici à exposer un test 
approrimatif. Pour le construire nous utiliserons : une loi normale de 
paramètres (+? | ner . : approchant la loi (marginale) à une 
dimension de la variable aléatoire v (n); la loi de Poisson (cf. n° 6.1.3) 
(de paramètre 2 = nto/2 + 1) du nombre de blocs de longueur 
> (cf. [7], pages 297-298) ; et, enfin, la majoration de la probabilité 


P{(n) > Voss (2), T (Rr) << Toos(n)}; 


OÙ Vo.s5 (2) est le point de pourcentage 0,95 de la loi marginale de 
% (n). et To,os (2) le point de pourcentage 0,05 de la loi marginale 
de T(n). 

Ceci nous conduit en définitive à la règle suivante. Si l’une au 
moins des inégalités 


v(r)> [+ (nr +1 — 1,96 Vn—1)] < 
T(n)<<1[13,3 log (r+1)] 


est violée, l'hypothèse d'indépendance stochastique des observa- 
tions est rejetée à un seuil & compris entre 0,05 et 0,0975. 


Exemple 11.5. Les tests à la durée de vie de 58 échantillons d’une 
chaine de fabrication ont donné _ résultats suivants: 38, 33, 29, 
16, 44, 21, 16, 17, 19, 1, 22, 28, 22, 14, 7, 13, 21, 15, 34, 23. 15, 
19, 32, 24, 14,13, 2 22, _ 8, 30, 11, 15, 24, 26, 14, 11, 25, 17, 10, 19, 5, 6, 
16, 7, 10, 1, 5, 2, 8, 14, 14, 15, 16. 13, 11, 9, 11, 19, 21. (Sont sou- 
lignées les valeurs empiriques à la place desquelles devraient figu- 
rer des « + » dans la suite correspondante.) 

De nombreux facteurs qui conditionnent fortement la qualité 
des échantillons (la matière première, la compétence du personnel, 
etc.) sont soumis à d’inévitables oscillations dont la nature peut être 
aussi bien aléatoire que systématique. La question qui nous inté- 


(11.64) 
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resse est de savoir si l'on a düment tenu compte de cet état de choses 
en désignant la méthode de prélèvement des échantillons, autrement 
dit, les observations sont-elles stochastiquement indépendantes ? 
Ainsi, le caractère de la variation des données empiriques dans le 
temps (les données empiriques se suivent dans l’ordre de prélève- 
ment des échantillons) dénote une tendance systématique à la baisse 
de la durée de vie. Le test qui vient juste d'être décrit nous aidera à 
dissiper nos doutes. 


Les calculs nécessaires nous donnent: Zmea (7) = 15,5; t (n) — 
= J;v(n) = 2 

De sorte que des deux inégalités (11.64), seule la première est réa- 
lisée. Force est donc de reconnaître que le brassage des échantillons 
avant leur tirage n’a pas été très satisfaisant et, par conséquent, les 
résultats des observations présentés ci-dessus ne sont pas stochastique- 
ment indépendants. 


11.3.2. Test des séries « ascendantes » et « descendantes ». Ce 
test « décèle » tout déplacement progressif (au cours du sondage) de 
la valeur moyenne de la loi étudiée, qu'il soit monotone ou de nature 
plus générale, par exemple, périodique. 

Comme dans le test précédent, on étudie une suite de signes « + » 
et « — » mais dont le principe de formation est différent. On part 
comme toujours d'une suite d'observations : un échantillon x;,zx+, . .. 

, En ; On remplace le terme de rang à par « + »siz;,,1 > x; et par 
« — »SiZz;41 Zi (si deux ou plusieurs observations successives sont 
égales, on ne tient compte que de l'une d'elles). Il est évident qu'une 
suite de « + » correspondra à une série d observations strictement 
croissantes (série ascendante) et une suite de « — », à une série d'ob- 
servations strictement décroissantes (série descendante). Le test 
repose sur le même principe que le précédent : si l échantillon est 
aléatoire (les observations sont indépendantes), le nombre total de 
blocs ne peut être trop petit, et leur longueur, pas trop grande. 

En particulier, si le seuil de signification & est compris entre 
0,050 et 0,0975, cette règle est exprimée par les inégalités: 


1 S 16n—29 
> | (2n—1)—1,96 JV = — 
Poe [= FO V (11.65) 
T(r) < To (7), 


où v (n)et t (n) désignent comme toujours respectivement le nombre 
total de blocs et le nombre de signes « + » ou « — » dans le plus long 
bloc, quant à 7, (n), elle est définie en fonction de 7 comme suit: 


n n < 26 26 < n < 153 153 << n < 1170 


To (7) Ty = 9 To = 6 Ti — 1 
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Si l’une au moins des inégalités (11.65) est violée, l'hypothèse de 
stochasticité de l'échantillon doit être rejetée. 


11.3.3. Test des carrés des différences séquentielles (test d’Abbe). 
Si l'échantillon zx,, x, - . ., x, est extrait d’une population géné- 
rale normale, on a intérèt à faire appel au test des carrés des diffé- 
rences séquentielles *) pour étudier sa stochasticité (l'hypothèse con- 
currente étant un déplacement systématique éventuel de la moyenne 
au cours du sondage). 

Pour vérifier l'indépendance stochastique des observations à l’aide 
de ce test, on calcule la quantité 


n)__ 9°(n) 
y) = FE) ? 
où 
q° (nr) = 2(n—1) Si (Ziss — 21)* ; 
1=1 
s'2(n) — — r}?, 
=! 
ee { n 
T=z(n)=— >» Zi. 
i=1 
Si 
v(r)<yrin (n), (11.66) 


l'hypothèse d'indépendance stochastique des observations est reje- 


tée. Ceci étant, la quantité (n) se calcule pour nr > 60 à l’aide 
de la formule 


min = EE 
Vrr(n)=1+ EUTETAÉ 


où u, est le quantile d'ordre « de la loi normale réduite. 


Les quantités yo" (n) pour n & 60 sont données dans la table 
4.9 [27] pour les trois valeurs du niveau à les plus souvent utilisées. 
Exemple 11.6. Dans une cimenterie, on a prélevé quotidienne- 
ment durant 45 jours des échantillons pour déterminer la résistance 
moyenne à la compression des cubes de contrôle (V/cm* ou kg/cm°). 


*) Dans ce cas, ce test est plus puissant (cf. $ 9.4) que le précédent. Cela 
signifie. en particulier, que si l’on se sert de ces deux tests pour un échantillon 
de taille n donnée et un risque de première espèce « donné (c'est-à-dire la pro- 
babilité de rejeter à tort l’  Dothiose d'indépendance), le risque de deuxième 
espèce est plus petit pour le test des carrés des différences séquentielles. 
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Les résultats sont les suivants : 40, 33, 75, 18, 62, 33, 38, 69, 65, 100, 
124, 91, 79, 42, 63, 23, 47, 52, 98, 97, 73, 85, 88, 40, 42, 51, 23, 
75, 52, 126, 90, 111, 92, 109. 72, 28, 56, 17, 52, 68, 75, 102, 107, 
77, 45. 

Les calculs ont donné: 


45 
> (x, — x)? =31336; s'’?— 848,5; 
1m! 

4& 


D (ziu—2)2=42819; g'(n)=486,6; y(r) =0,5735. 
mi 


Prenons le niveau «& égal à 0,05. Dans la table 4.9 [27], on trouve 
y 05 (45) — 0,7603. Ceci dénote une « inadmissible petitesse » de la 


X; 


Résistance 
a la compressivn, Kg/cm? 


es 
S Sg&SR 


D] 


5 10 15 20 25 30 35 40 45 
Numero de lechanti!lon (jours) 


Fig. 11.1 


quantité y (2), c’est-à-dire traduit la réalisation de l'inégalité (11.66). 
Il faut donc reieter l'hypothèse d'indépendance stochastique des 
résultats des observations. La cause de cette « non-stochasticité » 
est probablement à chercher dans certaines tendances systématiques 
du comportement dans le temps de la moyenne de la variable aléa- 
toire étudiée. 


La figure 11.1 donne une idée suggestive du caractère cyclique 
de ces tendances. 


11.4. Méthodes de traitement statistique des | 
données manquantes 


Dans ce paragraphe, on décrit les méthodes de traitement des 
matrices de données de la forme X dans le cas où une partie des me- 
sures manque (cf. $ 1.1). On admettra que l’absence d’une valeur 
d'un caractère de l'individu étudié (une colonne de la matrice des 
données) est liée à des causes techniques, par exemple, au mauvais 
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fonctionnement d'un instrument de mesure ou à une erreur grossière 
lors de la préparation des données, qui a occulté la véritable valeur 
du caractère, etc., mais pas à l’état de cet individu. Le chercheur 
peut avoir, selon la nature du problème, à estimer soit quelques para- 
mètres dans le cas d'observations manquantes, soit ces observations 
manquantes, soit les deux à la fois. Les deux derniers cas exigent 
plus de conditions initiales que l’estimation des paramètres. Les mé- 
thodes de leur résolution utilisent une information redondante four- 
nie par les relations entre les caractères. 

Introduisons les définitions et notations suivantes. Appelons 
unité (colonne) complète, une unité dont on a mesuré toutes les va- 
riables. De façon analogue, appelons variable complète (colonne com- 
plète) une variable qui a été mesurée à l'intérieur de toutes les unités. 
L'ensemble des unités dont on a mesuré la variable z' sera désigné 
par À ;, et le nombre de ces unités par ni. On notera X ;; l'ensemble des 
unités dont on a mesuré les variables x et x”, et n;;, le nombre de ces 
unites. 

Un procédé simple de traitement des données manquantes con- 
siste à considérer la plus grande sous-matrice des données dont toutes 
les lignes et colonnes sont complètes. Lorsque l'échantillon est com- 
posé d'un nombre suffisant d'unités complètes, et que la reconstitu- 
tion des données manquantes n’est pas l'objectif du traitement. ce 
procédé est le plus payant. Mais si les échantillons sont de petites 
ou moyennes tailles et que les mesures soient d’un coût élevé, il est 
naturel d’essayer d'utiliser toute l’information disponible. 


11.4.1. Estimation des paramètres inconnus en cas d’observations 
manquantes. L'une des plus vieilles et des plus simples méthodes 
de traitement consiste à remplacer les observations manquantes de 
la variable z' par la moyenne arithmétique calculée sur les autres 
données. La matrice complétée est ensuite utilisée comme à l’accoutu- 
mée, par exemple, pour estimer les éléments de la matrice des cova- 
riances (cf. (5.36’)). L'estimation de la matrice des covariances ainsi 
obtenue sera visiblement à biais, en particulier, les éléments dia- 
gonaux (les variances) seront calculés par défaut. Le biais des varian- 
ces peut être facilement éliminé par une estimation de ces variances 
uniquement sur les valeurs mesurées des variables correspondantes. 
D'autre part, le biais des éléments non diagonaux ne peut être pris 
en considération si des conditions supplémentaires ne sont pas impo- 
sées à la répartition des observations manquantes dans la matrice 
des données. 

Citons un résultat allant dans ce sens, dû à V. Boulyguine [49]. 

Supposons que les valeurs manquantes de la variable z' constituent 
un événement aléatoire statistiquement indépendant des valeurs 
prises par les autres variables de l'unité considérée et des valeurs de 


z' à l'intérieur des autres unités. Soit s;, l’estimation d’un élément 
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de la matrice des covariances, obtenue par substitution des valeurs 
moyennes. L’estimation sans biais s;; de l'élément o;; sera alors 


= Sij(n—1 sij(n—1)° 

= 6 ET + (16) (11.67) 
6 L pour i— j; 
MAI | 0 sinon. 


Mais les valeurs manquantes sont rarement indépendantes en 
pratique. C'est pourquoi il est plus sûr d'estimer le vecteur des moyen- 
nes et la matrice des covariances uniquement sur les données 
disponibles. Comme précédemment. pour estimer la moyenne et la 
variance de la variable z'. on se sert de la moyenne arithmétique 
et de l’écart-type calculés sur les valeurs disponibles de cette variable, 
quant aux éléments non diagonaux de la matrice des covariances, 
ils sont estimés sur toutes les unités dont on a mesuré le couple de 
variables 


x { ; 
m; To ). TZ}; (11.68) 
on 
13 = —— > (xi— m;) (2 — m;). (11.69) 
lIEK;; 


Il est évident que pour estimer l'élément non diagonal Sij, il 
faut disposer d'au moins deux unités dont on a mesuré le couple de 
variables z' et x’. L'estimation (11.69) est sans biais et converge si 
tous les n;;—> oo avec n. 

On observera toutefois que la précision de l'estimation (11.69) 
baisse rapidement lorsque le nombre des valeurs relevées croît. 
La matrice (11.69) n'est en général plus semi-définie positive. Bien 


plus, les coefficients de corrélation r;; = s;;/V si:515 peuvent être 
plus grands que 1 en module. 

L'estimation de la matrice des covariances obtenue à l’aide de 
la procédure suivante est bien plus exacte même pour un grand nom- 
bre de données manquantes. Outre le coefficient de variation qui 
est donné par la formule (11.69). on calcule pour chaque couple de 
variables x; et r; (i Æ j) les estimations intermédiaires sur l'ensemble 
K ;; des couples de valeurs mesurées 


a EE: > (Zi —m,)° (l=i, j); 


rEK;; 


puis l'estimation du coefficient de corrélation 


ri = Siy/(Sisÿ). 
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Il est évident que | Ti) | € 1 de par la procédure même de calcul de 


cette estimation. L'élément non diagonal s;; s’estime maintenant de 
la manière suivante 


Sij = TiSiiS jfs (11.69) 


où les éléments diagonaux s;; sont estimés à l'aide de (11.69). Le 
calcul de l’estimation (11.69°) nécessite une longue occupation de 


la machine et une mémoire supplémentaire pour les quantités si 


et s5, mais elle est bien meilleure que l'estimation (11.69) lorsque 
le nombre des données manquantes est élevé. 

Les nombres de degré de liberté ni, et n$ correspondant aux esti- 
mations (11.68) et (11.69) constituent une caractéristique importante 
de leur certitude et de leur précision. Le nombre n$ peut être inter- 
prété comme la taille effective de l'échantillon sur le vu duquel est 
estimée la matrice des covariances. autrement dit, l'estimation (11.69) 
admet la même précision que l'estimation de la matrice des cova- 
riances, obtenue à l'aide d'un échantillon de taille 7$ sans obser- 
vations manquantes. La quantité n%; recouvre le même sens pour 
le vecteur des valeurs moyennes. 

Dans [24] on propose d'utiliser les valeurs suivantes pour n% 
et ns: 


# a LA) Sen 
ns = 9 e (n;j— 1) 5 


LT ln, (11.70) 


c'est-à-dire les quantités inverses de la moyenne géométrique des 
unités de X; et À';;, où p est le nombre de variables. Les quantités 
(11.70) doivent être portées, par exemple, dans le test des hypothèses 
d'ajustement et d'homogénéite dans le cas vectoriel (cf. n° 11.2.7). 

Contrairement à l'estimation standard (5.36), les estimations 
(11.69) et (11.69’) peuvent ne pas être semi-définies positives pour 
des échantillons de petite taille. Leurs valeurs propres peuvent. en 
particulier, être strictement négatives. 

Les autres estimations de la matrice des covariances et du vec- 
teur des moyennes, obtenues en reconstituant les données manquantes, 
sont étudiées au n° 11.4.3. 


11.4.2. Utilisation des composantes principales. L'approche sui- 
vante est utilisée pour estimer aussi bien les observations manquan- 
tes dans la matrice des données que les valeurs des composantes prin- 
cipales d’une unité X, non complète. 

Supposons que les coefficients des vecteurs des composantes 
principales V,, U,, . .., U, aient été estimés par une méthode quel- 


22% 
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conque, par exemple, en tant que vecteurs propres des matrices 
(11.67) ou (11.69). Des propriétés des composantes principales, il 
s'ensuit alors que 


ki=> U;5i+ Au, (11.71) 
J= 


où À, est une variable aléatoire caractérisant l'erreur de la repré- 


sentation (11.71); zi les valeurs des composantes principales qui sont 
à estimer. 

Dans de nombreux cas, les premières composantes principales 
(q L p) de (11.71) donnent lieu à une erreur A; de norme petite. 

Supposons maintenant que V; est l'ensemble des numéros (indi- 
ces supérieurs) des r; variables mesurées de l’unité X;. Pour estimer 
les composantes principales en n'utilisant que les variables mesu- 
rées de (11.71), on dispose du système de r; équations linéaires à q 
inconnues : 


TZ 


aq 
1 > unz (ÉEN:). 


2= 
Ce système se résout par la méthode des moindres carrés, ce qui nous 
amène au système d'équations normales 


V'Zi TT Ci, 


où Viest la matrice d'ordre q d'éléments v', = Su tsllits s tCT;;.: 
IEN, 

-.., 93 Zi est l'estimation du vecteur des qg premieres composantes 

principales ; C';, le vecteur de dimension g de composantes 


Cik —= di UT! (k = PE «» 4). 
lENg 
Les vecteurs U,, . .., U, étant deux à deux orthogonaux, la ma- 
trice V' est manifestement non dégénérée si r; > q, c'est-à-dire que 
le nombre de variables mesurées est plus grand que celui des com- 
posantes principales. Dans [64] on montre que si la matrice (11.69) 
intervient dans l'estimation des coefficients des vecteurs des com- 
posantes principales, les estimations des Z; seront sans biais. En 
portant maintenant les estimations de Z; dans (11.71), on peut obte- 
nir les estimations des composantes manquantes du vecteur X;. 


11.4.3. Reconstitution des données manquantes et estimation 
des paramètres par la méthode du maximum de vraisemblance. Esti- 
mations du «point fixe». Partageons la matrice X en deux par- 
ties Z et Y dont la répartition conjointe dépend d'un paramètre 8 
qui dans la suite désignera le vecteur des moyennes; Ÿ est une ma- 
trice des covariances composée des unités complètes et des variables 
mesurées des unités incomplètes, Z l’ensemble des valeurs manquan- 
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tes. Supposons maintenant qu'on‘ nous demande l'estimation 8 qui 
maximise le logarithme de la fonction de vraisemblance ! (Y; 6) 
pour Ÿ fixe (cf. $ 8.2). Cette estimation est difficile à obtenir par 
des calculs directs. En revanche, il est bien plus facile de trouver la 
valeur qui maximise le logarithme de la fonction de vraisemblance 
[(Z, Y; 0) si les valeurs manquantes sont reconstiltuées de façon 
arbitraire. Si maintenant on traite Z comme une variable aléatoire 
suivant une certaine loi de probabilité (dépendant de Y), on peut 
trouver la valeur de 6 qui maximise l'espérance mathématique de 
L(Z. Y;, 6). 

Considérons un procédé de réalisation de cette approche [19]. 

Supposons que j (Z | Y; 8) est la densité de la loi conditionnelle 
de Z sachant que Ÿ et 6 sont donnés et posons l(Z | Y; 0) — 
= Inf(Z|Y; 6). Alors 


L(Z, Y: 8) =2(Y: 0) LZ(Z|Y;: 6). (11.72) 


Fixons maintenant une valeur initiale des paramètres 6,, ce qui 
définira complètement la densité f (Z | Y: 8.,). et prenons l'espé- 
rance mathématique des deux membres de (11.72) en les intégrant avec 
la densité j (Z | Y; 0 ,): 


Î2 (2, Y,68)/(ZIY; 8,)dZ = 1(Y: 6) + 


+ [1(2IY: 6)7(2 1 Y;0,) dZ, 
ou, dans d’autres notations, 
E((ZIY;,90)1Y;,0,)=7(Y; 8) +E((ZIY;8)1Y; 90.) 


Déterminons maintenant Ja valeur de 0, qui maximise le premier 
membre de cette expression. La quantité 0 ; dépend de 8,, ce qu'on 
exprime par la relation 


0; = 1} (0 ,). 


Appelons estimation du « point fixe » de 8 une valeur de 8, telle 
que 
0 — # (8), (11.73) 


et l'équation (11.73). équation du point fixe. 

Signalons les principales propriétés des estimations du point 
fixe qui lient ces dernières aux estimations du maximum de vrai- 
semblance à l'aide de L (Y; 8). 

1. Soit 0, — Arg ax L(Y 19), c'est-à-dire que 04 est une esti- 


mation du maximum de vraisemblance, calculée sur les observations 
mesurées. Alors 00 est solution de l'équation (11.73): 84 = 1 (84), 
c'est-à-dire appartient à l’ensemble des estimations du point fixe. 

2. Si L(Z]Y; 8) est une fonction dérivable. toute estimation 
du point fixe (c'est-à-dire toute solution de l'équation (11.73)) 
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est soit un point de maximum, soit un point stationnaire de la fonc- 
tion de vraisemblance Z (Y ; 6). 

Supposons maintenant que X est un échantillon extrait d'une 
population normale. Supposons, comme dans le n° 11.4.2, que W; 
est l'ensemble des numéros des variables mesurées à l’intérieur des 
unités X;. Ÿ, l'ensemble des valeurs connues des variables et 


O=(M, 2), 04 = (M4, 24), 0% (04) = (Mn Zn). 


Les équations du point fixe s’écrivent dans ce cas [19]: 


mjs=—+ > ai: (11.74) 


i=i 


i à 
4 a, A 
[ons » (24 — M8) (x#,— M8) + Ojna. nl 
is! 


{ 1 ,=E(Z IN; M, Zi); (11.75) 
Oiraon, = COV{X, 2] Ni; Ma, Za}. (11.76) 


Pour déterminer les estimations par le maximum de vraisemblance 
(du point fixe), on choisit une valeur initiale de A7, et Z£, (par exem- 
ple. les estimations (11.68) et (11.69)) et on organise une procédure 
cyclique jusqu à ce que la différence entre les estimations obtenues 
itérativement ne soit plus significative. 

Si ri a été observée, alors Tia = 2; sixi est une valeur man- 
quante. on peut l'estimer à l’aide de la quantité 


N\} 


où b;” est le coefficient de l'équation de régression linéaire de la va- 
riable + sur les valeurs mesurées du vecteur X'; ; ai le terme constant 
de l'équation. 

Le terme 6x4, x, Se calcule comme suit : 


( 0 si les variables x? et 
z* de X, sont mesurées ; 


NV pi 1 i j 
— À: bPGija si la variable x de X; 
IEN; n a pas ete mesurée; 


EN, n’a pas été mesurée ; 


V ijpik i j ph , 
— Ù bPbo,, Si les variables x’ et xr* de X; 


V ik i "ari k 
| — À bou si la variable z* de À, 
{ L EN; n'ont pas été mesurées. 
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Pour conditions initiales, on peut prendre les valeurs de 7 et de Z 
calculées à l’aide des expressions (11.68) et (11.69). Si, dans le sché- 
ma proposé, on se limite à une seule itération, on obtiendra le même 
résultat que par la méthode de reconstitution des données manquan- 
tes à l’aide d’une régression linéaire [25]. 


11.4.4. Méthode non paramétrique d’estimation des données man- 
quantes. La méthode du point fixe, étudiée ci-dessus, implique 
que la loi de probabilité de la matrice des données soit exprimée 
sous une forme analytique, ce qui évidemment restreint sa portée. 
Cependant, il existe des méthodes de reconstitution des données 
manquantes qui n exigent pas que soit connue la loi de probabilité, 
et qui utilisent la distance des unités (pour une certaine métrique), 
calculée à l’aide des variables mesurées à l’intérieur de ces unités. 
On admet que si deux unités sont proches dans l’espace des variables 
mesurées, elles le seront pour les variables non mesurées [142]. La 
métrique et la valeur de la distance qui détermine la proximité des 
unités dépendent des conditions du problème posé : des échelles dans 
lesquelles les variables sont mesurées, du nombre d'observations 
manquantes, etc. Le principe de l'une des éventuelles concrétisations 
de cette approche est le suivant. Supposons qu'il faut estimer la va- 
leur manquante d une variable 20) de l'unité X;, c'est-à-dire estimer 


l'élément 19 de la matrice des données X. A cet effet, on considère 
la sous-matrice X) de X des colonnes (unités) dont sont mesurées 
les variables x), puis à l’intérieur de X®) on envisage le groupe ho- 
mogène des unités les plus proches de X ; dans l’espace des variables 


de X; mesurées. On remplace ensuite la valeur manquante de x? 


par la moyenne de 1% calculée sur le groupe homogène d'unités. 

Cette procédure est réalisée par l’algorithme « ZET » qui est dé- 
crit en détail dans [142]. Les exemples traités ibidem montrent que 
cet algorithme fournit de bons résultats. 

Considérons maintenant le problème de l'estimation de la qualité 
de la reconstitution des données manquantes par l'algorithme« ZET » 
et par les méthodes développées précédemment. À vrai dire, il est 
difficile d'introduire un critère formalisé de la qualité de la reconsti- 
tution des données manquantes. Mais il existe une méthode approchée 
d'estimation [142] qui consiste à exclure de façon aléatoire une partie 
des éléments de la matrice X et à reconstituer ensuite ces éléments à 
l’aide d’une méthode quelconque. L'écart (par exemple, la somme 
des carrés des écarts) entre les valeurs véritables et les valeurs re- 
constituées est précisément le critère de qualité de l'algorithme de re- 
constitution des observations manquantes. 
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11.5. Analyse des observations anomales 


11.5.1. Position du problème. Dans ce numéro on étudie les mé- 
thodes d'identification des observations qui s'écartent fortement 
du centre de la répartition. Ces grands écarts sont le résultat d’une 
erreur aléatoire, d'une lecture incorrecte des indications de l’ins- 
trument de mesure, d'un décalage aléatoire de la virgule dans la repré- 
sentation décimale de la mesure, etc., parfois le résultat de causes 
plus subtiles, telles qu'une non-conformité, en certains points, du 
modèle mathématique utilisé à la réalité. une modification des 
conditions de l'expérience qui a échappé au chercheur. etc. Quoi qu'il 
en soit, du point de vue mathématique, il s'agit de mettre en évi- 
dence les observations qui contrastent avec la principale masse des 
données. L identification des observations anomales permet en géné- 
ral de revérifier les conditions dans lesquelles elles ont été enregistrées 
et traitées et, donc, de localiser et d'éliminer l'erreur. Si cette erreur 
ne peut être supprimée. c'est l'observation qui l'est. car étant non 
caractéristique. 

Le problème posé se traite en deux étapes : identification des obser- 
vations « suspectes » et test de la signification statistique de leurs 
écarts par rapport à la principale masse des données. 

J1 va de soi que les deux étapes sont basées sur certaines hypothe- 
ses portant sur la répartition aussi bien de la principale masse des 
données (la partie non polluée) que des « déchets ». On admet géné- 
ralement que les observations de la partie non polluée suivent une 
loi normale à une ou plusieurs dimensions de paramètres inconnus. 
En analysant les écarts des observations par rapport au modèle 
mathématique, on postule parfois, de plus. que la moyenne de la ré- 
partition des écarts est nulle. Pour ce qui est des conditions impo- 
sées à la pollution, il n'y a pas d’archétype. On admet parfois que 
les déchets ont la même variance et une moyenne légèrement diffe- 
rente que le gros de l'échantillon, tout comme on admet qu ils ont 
une moyenne peu différente de celle de la principale masse, mais une 
variance bien plus crande. Pour faciliter les références, nous allons 
formaliser ces conditions. Soient x. xs. . . ., , un échantillon, 
És + + ce Émas Jas + + ++ ]ns Gi + N2 = n) des collections d'indices de 
l’ensemble 1. 2. ..., n, correspondant aux parties non polluées et 
polluées de l'échantillon. La condition de non-pollution s'écrit : 


ri EN (u, 0°), (11.77) 


où Lu et s sont des paramètres inconnus. 
Les conditions de pollution s’écrivent : 


z] EN (u + d, o*)sila moyenne est déplacée; (11.78) 


r; EN (u. yo”), y > 1, si la variance est grande (11.79) 
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Si l'on sait a priori que la moyenne de la principale partie de l'é- 
chantillon est nulle, alors (11.77) devient 


xi ENV (0. 0°), (11.50) 

et les relations (11.78), (11.79) 
x; EN (d, 0°): (11.81) 
x; EN (0, vo), y > 1. (11.52) 


Avant de passer à la description des méthodes d'identification 
des déchets, signalons que l’approche purement statistique du pro- 
blème d'identification et d'élimination des observations anomales, 
développée dans ce numéro. implique une certaine prudence au ni- 
veau de l'interprétation des données. L'hypothèse d'homogénéité, 
qui repose à la base des procédures statistiques, peut effectivement 
être mise en défaut et les déchets prennent un relief tout particulier- 
en jetant la lumière sur le procédé de leur collecte. 


11.5.2. Méthodes graphiques. Appelons k-normal (half-normal): 
un papier fonctionnel déduit du papier gausso-arithmétique de la 
manière suivante: on découpe le demi-plan inférieur correspondant 
aux ordonnées <<0,5, puis on fait le changement d'ordonnées ?” = 
= 2 (t — 0.5). Sur le papier L-normal. la fonction de répartilion de: 
|x |. où x E N (0, o°) se représente par une droite issue de l'origine: 
des coordonnées et de coefficient de direction À = Lo, c'est-à-dire: 
le coefficient de direction de la fonction de répartition de x sur le: 
papier gausso-arithmétique. 

Considérons maintenant le cas où la condition (11.50) est imposée 
à la partie non polluée de l’échantillon et les conditions (11.51) ou 
(11.82), à la partie polluée. Si l'on construit la fonction de répartition 
de |z; | sur du papier -normal, on obtient un graphique dont la 
partie gauche se laissera bien approcher par une droite issue de l'ori-- 
gine des coordonnées. La partie droite du graphique bifurquera vers 
la droite de cette droite et le point de bifurcation nous permettra 
d'estimer le taux de pollution. 

Dans le cas général, si l’on a affaire aux modèles (11.80), (11.81), 
(11.82), on commence par estimer le paramètre u (cf. $ 10.4) par une: 
méthode stable quelconque, puis on construit le graphique de la fonc- 


tion de répartition de la différence | x; — u | sur du papier k-normal. 
Le graphique admet les mêmes propriétés et la mème interpretation 
que dans le cas particulier qui vient d'être traité. 

Si, dans le cas multidimensionnel, on admet que la principale. 
partie de l'échantillon suit approximativement une loi normale :V (X, 
MT, ©), on estime les paramètres de cette loi à l’aide des À-moments 
(cf. $ 10.4) pour une valeur de À, telle que l'effet de la pollution sur: 
l'estimation ne soit pas élevé et que les estimations obtenues possè-- 
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dent de bonnes propriétés empiriques. On construit ensuite l'histo- 
gramme de la répartition 


(X — M)È-2(X — M). (11.83) 


Dans ces conditions, cette quantité doit suivre une loi du y* à p 
degrés de liberté. L allourdissement visible de l'extrémité droite de 
l'histogramme est le signe d'une pollution de l'échantillon. Ce pro- 
-cédé. mème s il est approximatif, est commode en pratique dans la 
mesure où le calcul des À-moments pour chaque paramètre va de pair 
avec l'estimation, à l'aide de (11.83). du poids avec lequel l'observa- 


tion figure dans les estimations 4] et ZX. 


11.5.3. Méthode analytique d’exclusion d’une observation extrême. 
‘Sans nuire à la généralité. on admettra qu'il est question de l'obser- 
vation maximale. Soit x < : - - L In) la série variationnelle as- 
sociée à l'échantillon. La règle de décision, relative à l’exclusion du 
terme extrême de la série variationnelle, est basée sur la statistique 


Ta = (rm — 2)'s. où r'et s se définissent de la manière habituelle. 
La loi et les points de pourcentage de 7, ont été étudiés par E. Pear. 
son [110], N. Smirnov [122], F. Grubbs [62]. La table des valeurs 
critiques de T, établie par Grubbs est accessible dans [27]. Si T, 
est plus grande que la valeur critique correspondante, l'hypothèse 
de la pollution est acceptée. sinon nous n'avons aucune raison du point 
de vue statistique de parler de pollution. 


L'instabilité des estimations x et s (cf. $ 10.4) aux écarts de la 
répartition de x; par rapport à la loi normale réduit la portée pratique 
de ce test. En se servant des estimations stables des paramètres de loca- 
lisation et d'échelle, on peut construire des tests de type 7, plus 
stables. 

Si on suspecte l'existence de plusieurs valeurs extrêmes, on ap- 
plique ce test à la plus grande d'entre elles. Si cette valeur est un dé- 
chet. on l’élimine de l'échantillon et on applique le test à la valeur 
suivante el ainsi de suite jusqu à ce que l'on obtienne une valeur 
qui ne soit pas un déchet. Cette approche est compliquée par le fait 
que les observations suspectes forment un groupe compact à l'écart 
de la principale masse des observations. ce qui rend la procédure ité- 


rative basée sur l'utilisation de zx et s insensible à ces observations. 


Comme au n° 11.5.2, on peut recommander de remplacer x et s par 
les ?-moments correspondants (cf. $ 10.4 et [97], [98]). 


11.5.4. Test analytique d’élimination simultanée de plusieurs 
observations extrêmes. Le test exposé plus bas a été proposé par 
G. Tietjen et H. Moore [132]. L'hypothèse nulle consiste comme tou- 
jours en ce que l'échantillon a été extrait d'une population normale. 
La règle d'élimination des # plus grands termes de la série variation- 
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pelle est basée sur la statistique : 


n—k 
> (zG) —2r)° 
Ly = =, (11.84) 
>. (x —2)° 
im! 


où zx, est la moyenne des 7 — À premiers termes de la série variation- 


nelle, x. la moyenne de l'échantillon tout entier. En cas de déchets, 
la statistique L, doit ètre inférieure à la limite critique calculée 
pour une loi normale. Les tables des valeurs critiques pour L, sont 
accessibles dans [124]. 

Si l'échantillon compte des déchets parmi les plus petites et les 
plus grandes observations, il faut modifier la règle d'estimation de 
leur signification, exposée ci-dessus. Cette modification est proche 


de celle décrite au n° 11.5.2 et consiste en ce qui suit. On calcule z 


sur les valeurs 21, . . ., x,, puis les écarts absolus | x; — x |. On range 
ces écarts absolus par ordre de grandeur croissante et on les désigne 


par Zn. Soit x) la moyenne arithmétique des » — À premiers ter- 
mes de la série variationnelle obtenue. Le test modifié s'écrit alors 


n-Rh 
S Gw—2) 
Et __—, (11.85) 


Le point faible de ce test est qu il repose sur des statistiques qui 
dépendent fortement de la normalité de la loi et aussi que £ n'est 
pratiquement jamais connu à l'avance mais estimé sur le vu des 


données, auxquelles sont appliquées les statistiques x et s. Cette der- 
nière circonstance, ainsi que l'ont prouvé Tietjen et Moore, se ré- 
percute fortement sur le niveau critique réel du test, ce qui plaide 
une fois de plus pour les « naïves » méthodes graphiques. 


Conclusions 


1. Les tests d'hypothèses statistiques peuvent être répartis en 
deux classes : la classe des tests dont la répartition des statistiques 
critiques (sachant que l'hypothèse nulle est vraie) dépend de celles 
de l'échantillon (ces tests sont dits paramétriques). la classe des tests 
dont les statistiques sont « distribution free », c'est-à-dire les tests 
dont la répartition des statistiques critiques (sachant que l'hypothèse 
nulle est vraie) ne dépend pas de la répartition de la population géne- 
rale (ces tests sont dits non paramétriques). Cette classification des 
tests est jusqu'à un certain point conventionnelle. Ainsi, dans le cas 
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d'un test du 7*, la répartition de la statistique critique, sachant que 
l'hypothèse nulle est vraie, ne dépend pas de la répartition modele, 
bien que pour l’appliquer on ait généralement besoin de l’estimation 
des paramètres de cette répartition modèle. D'autre part, l’utilisa- 
tion des tests non paramétriques de Kolmogorov et du w° dépend déjà 
de la forme de la répartition modèle si elle implique l'estimation des 
paramètres de cette dernière. 

2. Pour tester l'hypothèse de normalité de la répartition modèle, 
on peut faire appel aux tests traditionnels basés sur les valeurs empi- 
riques des coefficients de dissymétrie et d’aplatissement. L’appli- 
cation de ces tests est compliquée par la convergence lente des ré- 
partitions des statistiques critiques vers les répartitions limites, 
d'où la nécessité d'utiliser des tables de points de pourcentage des 
répartitions exactes des statistiques critiques, dressées pour des 
échantillons de tailles fixes. Les statistiques des tests de Kolmogorov 
et du w°, destinés à vérifier la normalité d’une répartition dans le 
cas où les paramètres de cette dernière sont estimés sur le vu de l’é- 
chantillon, tendent bien plus vite vers les répartitions limites. 

3. Le test du 7° est utilisé pour éprouver les hypothèses d’ajuste- 
ment et d’homogénéité si les données sont groupées. La répartition 
limite de la statistique de ce test. sachant que l'hypothèse nulle 
est vraie, ne dépend pas de la répartition de la population générale. 
bien que ce test implique l'estimation des paramètres de la réparti- 
tion modèle. Un point capital dans ce test est le choix du nombre d’in- 
tervalles de groupement et la répartition des observations sur ces 
intervalles. 

4. Si la répartition modèle est entièrement connue et est continue 
(cette situation se présente lorsqu on vérifie, par exemple, des géné- 
rateurs de nombres aléatoires suivant une loi de probabilité donnée), 
les tests de Kolmogorov-Smirnov et Cramer-Mlises sont les plus ap- 
propriés pour tester l'hypothèse d'ajustement. Les répartitions 
des statistiques de ces tests convergent vers la répartition limi- 
te. quant aux répartitions limites, elles se calculent aisément. Les 
répartitions des modifications des statistiques critiques convergent 
encore plus vite vers les répartitions limites. Dans le cas de données 
groupées, le niveau de ces tests sera inférieur au niveau nominal. 

5. Pour vérifier l'hypothèse d'homogénéité de deux échantillons 
en dimension un, on peut se servir des tests de Smirnov et des tests 
de rang linéaires. Le test de Smirnov est efficace pour toute violation 
de l'hypothèse nulle, mais n'indique pas la nature de cette violation. 
Les tests de rang linéaires permettent de dire à quoi est due l’hété- 
rogénéité : à l'inégalité des paramètres de localisation et ou d'échelle. 
Le mérite des tests de rang linéaires réside dans la convergence rapide 
des répartitions de leurs statistiques vers la répartition limite (nor- 
male) et leur stabilité à la pollution. Les tests de rang linéaires se 
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généralisent facilement au cas de plus de deux classes. Ces tests ne 
s'appliquent tous à strictement parler qu à des répartitions modèles 
continues. L'application des tests de rang linéaires aux données grou- 
pées implique l'introduction de corrections appelée traitement des 
coïncidences. 

6. Si l’on sait que les échantillons sont prélevés dans des popu- 
lations normales, on peut, pour en tester l’homogénéité, se servir 
de tests basés sur les statistiques bien connues de Student et de Fisher. 
€es tests se généralisent à un nombre À (>>2) de classes. Le test basé 
sur la statistique de Student est stable pour les écarts par rapport 
à la loi normale et peut être utilisé dans une situation plus générale. 

7. Pour vérifier l’homogénéité dans le cas multidimensionnel, on 
ne dispose en fait que de tests qui partent de l'hypothèse que les 
échantillons sont extraits de populations normales multidimensionnel- 
les. Le test du 7° est comme son analogue unidimensionnel,le test t 
de Student, stable pour les écarts par rapport à la loi normale et peut 
être utilisé dans une situation générale. 

8. Pour éprouver l'hypothèse de symétrie d'une répartition, on 
peut solliciter des tests de rang linéaires qui sont analogues aux tests 
de rang linéaires de l’hypothèse d’homogénéiteé. 

9. Les procédures statistiques d'identification des observations 
anomales conjecturent l’homogénéité des données. Ceci étant, les 
déchets sont traités comme des observations qui sont anormalement 
éloignées du centre de la répartition. De nombreuses procédures ana- 
lytiques d'identification des déchetset d'estimation de lasignification 
de leurs écarts ont été proposées ces derniers temps. La principale 
difficulté de leur mise en œuvre réside dans le fait que le taux de 
« pollution » n’est pas connu et s’estime sur ces données mêmes qui 
sont utilisées pour tester la signification des écarts. Les procédures 
graphiques sont les plus stables aux écarts par rapport à l'hypothèse de 
normalité de la principale partie de l'échantillon. 

Signalons que les déchets peuvent fournir de précieux renseigne- 
ments sur la manicre dont les données ont été recueillies. 


CHAPITRE 12 


LOGICIEL DE LA STATISTIQUE APPLIQUÉE 
ET QUELQUES PROBLÈMES RELATIFS À LA TECHNIQUE 
DE CALCUL 


12.1. Logiciel de la statistique appliquée 


Le logiciel de la statistique appliquée (SA) est bien élaboré et se 
développe intensément aussi bien dans le sens de la conception de 
nouvelles méthodes de traitement des données, que du perfectionne- 
ment de son organisation et de sa structure. Les paquets de program- 
mes *) sont une forme commode d'organisation du logiciel, qui per- 
met de traiter efficacement les données. Citons les critères essentiels 
de qualité d’un paquet de programmes de SA. 

Le premier groupe de critères a trait à l'accès et à la commodité 
de la gestion du paquet pour l'utilisateur. S'y rapportent : 

1. Une documentation sur le paquet qui soit détaillée et bien pré- 
sentée. Ïl s'agit en premier chef d'un « Manuel d'utilisation » 
destiné à initier l'utilisateur aux divers usages du paquet et à la 
façon de s'en servir. Ce manuel est indispensable à la diffusion du 
paquet de programmes. Comme exemples de manuels bien présentés 
citons ceux des paquets BMDP [24]. [25] et SPSS [125]. 

2. La possibilité de formuler le problème et de gérer les données à 
l'aide d'un langage simple adapté à la statistique appliquée. 

3. La mise en place d’un système d'indication et de commentaire 
détaillé des erreurs commises lors de la formulation du problème et 
dans le processus de traitement. 

4. L'instauration d’un régime conversationnel avec le paquet. 

L'autre groupe de critères est lié aux qualités fonctionnelles du 
paquet. 

5. Des méthodes accessibles de manipulation des données (triage, 
rédaction. transformation, agrégation et séparation des données, 
etc.) avant leur traitement par les méthodes de SA. 

6. Un arsenal assez riche de procédures de SA pour le traitement 
des données. 

7. La possibilité d'organiser des procédures itératives séquentiel- 
les de traitement des données. 

8. La possibilité de traiter des données de grande dimension. 

Le troisième groupe de critères est important pour le traitement 
prolongé de grands fichiers. 


*) Le développement du logiciel de SA va dans le même sens que celui du 
logiciel appliqué en général. 
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9. L'existence de méthodes de contrôle et de stockage des données. 
10. La possibilité de relier le paquet aux banques de données. 


12.1.1. Organisation des paquets de programmes. On distingue- 
les niveaux suivants d'organisation des paquets de programmes. 

Au premier niveau on trouve le paquet de structure simple qui est 
une bibliothèque de modules : par modules on entend une procédure, 
un sous-programme ou un programme rédigé dans un langage de: 
programmation évolué (FORTRAN, PL/1), satisfaisant à des con- 
traintes assurant l’unité conceptuelle du paquet. Les plus importantes: 
d'entre elles sont les contraintes qui portent sur la structure de la mé- 
morisation des principales unités d'information, nécessaires à Îla 
compatibilité des entrées et des sorties des divers modules. Il faut, 
par exemple, que la matrice des données soit présentée à l'entrée- 
des modules sous forme d'un tableau à deux dimensions dont les 
éléments sont disposés en lignes (ou en colonnes). Les autres contrain- 
tes sont liées aux moyens de transmission de l'information (par exem- 
ple, l'admission ou l'interdiction de variables exogènes), à l'utilisation 
d'opérateurs de type entrée-sortie, à l'achèvement en catastrophe 
du travail du module. Les sous-programmes de ces paquets sont dotés 
aussi d’une documentation compatible. Le paquet de structure simple 
peut être utilisé aussi bien sous forme d'une bibliothèque des modules: 
initiaux (dans un langage de programmation évolué) que sous forme 
d’une bibliothèque de modules de chargement obtenus par compila- 
tion et rédaction des modules initiaux respectifs. Un exemple de pa- 
quet de structure simple est le Paquet des sous-programmes scienti- 
fiques (PSS) écrit en FORTRAN pour le Système Unique des ordi- 
nateurs [88] présenté généralement sous forme de modules de charge- 
ment. Les sections des PSS qui nous intéressent sont décrites dans. 
[vyp. 2], [vyp. 10]. Un PSS a été composé en PL/1 (cf. [vyp. 14)). 
Le paquet SSP de la firme IBM a servi de modèle pour la version du 
PSS en FORTRAN, la version SSP sur PL/1, respectivement pour la 
version PSS en PL/1. L'arsenal des procédures de statistique appli- 
quée dans le PSS s’est considérablement enrichi en comparaison des. 
paquets initiaux SSP, notamment dans le domaine du traitement 
des données multidimensionnelles. En plus des programmes pure- 
ment statistiques, ces paquets contiennent des sous-programmes em- 
pruntés à d’autres branches du calcul numérique: algèbre linéaire, 
interpolation et extrapolation des fonctions tabulées. etc. 

L'utilisation du paquet de structure simple implique de l'utili- 
sateur une bonne maîtrise de la programmation. L'utilisateur doit 
sélectionner les modules appropriés et rédiger le programme-maîitre 
en un langage évolué qui assure l'appel des modules sélectionnés 
dans un ordre déterminé, le chargement et la gestion des entrées- 
sorties. À ce niveau le langage de l'utilisateur comprend un langage 
de programmation évolué (FORTRAN, PL/1{), un langage d'appel du 
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système d'opérations et des procédures linguistiques introduites par 
l'utilisateur pour gérer son programme. 

A un niveau bien plus élevé d'organisation, on trouve les paquets 
<onstitués d’un ensemble de programmes prêts à l'usage, commandés 
par un langage d'entrée et possédant la même entrée-sortie des don- 
nées. À ce niveau d organisation il est possible d'élaborer des métho- 
des relativement simples de manipulation. de contrôle et de stockage 
des données. 

Les programmes du paquet sont constitués de modules qui en 
principe sont pris dans une bibliothèque organisée comme nous l'a- 
vons décrit plus haut. Les programmes comportent généralement des 
overlays *) pour réduire les ressources de la mémoire principale. 

L'utilisateur n'a pratiquement aucune possibilité de changer les 
programmes, hormis les cas, prévus à l’avance, de modification du 
volume de la mémoire réservée aux données et la connexion, suivant 
des règles bien définies, de certaines procédures de l'utilisateur en 
FORTRAN ou PL/1, par exemple des procédures de conversion des 
variables. Cependant ces paquets permettent de satisfaire l’écrasante 
majorité des besoins de l'utilisateur grâce à la souplesse du langage 
d'entrée et la possibilité d'élaborer sans peine des procédures en cas- 
cade de traitement avec les programmes du paquet. Dans le même 
temps. ces paquets agissant eux-mêmes sur le déroulement de l'’ana- 
1yse statistique en conditionnant, par la composition des procédures 
permises et les contraintes imposées aux données d'entrée, la forme 
de la préparation, et dans une grande mesure, de la collecte des don- 
nées. La manipulation d'un tel paquet est à la portée d'un utilisateur 
profane en programmation, bien qu'en règle générale un minimum de 
connaissances des langages de communication avec le système d’opé- 
rations soit requis. 

L'un des plus connus des paquets de ce type est le BAD P mis au 
point aux U.S.A. Nous envisagerons plus bas deux versions de ce 
paquet : la version de 1975 [24] adaptée en U.R.S.S. pour le SU des 
ordinateurs et la version de 1979 [25] qui a été considérablement plus 
étendue par rapport à celle de 1975. Dans la suite, nous désignerons ces 
versions par BMD P 75 et BMDP 79. 

Un autre paquet de ce type est le paquet de Programmes d'analyse 
statistique appliquée (PPSA) [108]. élaboré par l’Institut central 
d'économie et de mathématiques de l’Académie des sciences de 
l'U.R.S.S. Le PPSA diffère du BMDP par la composition des mé- 
thodes de traitement réalisées, le langage d'entrée, l’organisation 
et la documentation des données, ainsi que par l’organisation des 
programmes. Si dans le BMD P chaque programme ne réalise qu'une 
seule méthode de traitement, le PPSA utilise les programmes thé- 


*) L'organisation d’une structure overlay permet de charger les modules 
de traitement dans la mémoire au moment où ils commencent à traiter les 
données et de les remplacer par des modules qui ont fini de fonctionner (cf. [86)). 
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matiquement orientés (programmes TO) [10]. Chaque programme TO 
est en fait un paquet de programmes pour la résolution d’un sous- 
ensemble de problèmes de statistique appliquée (estimation, analyse 
de régression, discriminante, etc.). Les sous-ensembles de modules 
sollicités par les divers programmes TO se recoupent partiellement. 
C'est ainsi que les programmes exploitent tous les mêmes modules 
d'entrée et de traduction des propositions du langage d'entrée, 
d'introduction des données, de délivrance des données sous forme 
de tables et graphiques, etc. L'organisation des liaisons entre les 
modules dans les programmes TO permet de mettre au point une struc- 
ture overlay simple. L'usage des programmes TO facilite dans bien 
des cas la tâche de l'utilisateur au niveau de la conception des 
procédures en cascade de traitement. 

L'étape suivante de l’évolution des programmes TO (du point 
de vue organisationnel mais pas chronologique) est l'élaboration de 
paquets de programmes dont les procédures de traitement sont ba- 
sées sur l’analyse des propositions du langage d'entrée décrivant le 
problème de l'utilisateur. Les méthodes de réalisation de cette ap- 
proche sont très variées. Les paquets étrangers P-STAT [113], 
SPSS [125] et les paquets soviétiques SOD-GS [109], OTEKS [106] 
font partie de ce type. 

Apparemment, pour l'utilisateur, le travail avec des paquets de 
ce type se distingue peu du travail avec les paquets BMD P ou PPSA. 
Aussi, dans la suite, nous ne ferons aucune distinction entre eux 
et nous les désignerons simplement par paquets de programmes en les 
distinguant des paquets (bibliothèques) de sous-programmes de 
type PSS. Tous les paquets mentionnés ci-dessus sont destinés au 
SU des ordinateurs ou à IBM-380/370 *) exception faite de la version 
PSS en FORTRAN qui peut être utilisée (sous forme de modules ini- 
tiaux) sur les ordinateurs BESM-6 et « Minsk-32 ». Parmi les paquets 
de programmes destinés à l’ordinateur BESM-6, signalons le paquet 
SORRA-1 **) rédigé pour la résolution des problèmes de classifica- 
tion multidimensionnelle et de régression, et le paquet DIAS [531]. 


12.1.2. Problèmes d'organisation et possibilités de gestion des 
données. Les données d'entrée traitées par les paquets de program- 
mes de statistique appliquée sont présentées essentiellement sous la 
forme d’une matrice de type « objet-variable ». Pour tous les paquets 
de programmes envisagés, on admet que la matrice des données est 
ordonnée comme suit : 


20, ..., ap), 24), ..., 2, ..., 26, ..., xp), (12.1) 


*) Certains des paquets mentionnés peuvent être transposés sur un minior- 
dinateur de type SM-4. 

**) Cf.: Raoudis Ch. A!gorithmes de classification et de régression du système 
SORRA-1. — Dans l'ouvrage: « Problèmes statistiques de gestion ». Vilnius, 
1978, vyp. 77 (en russe). 
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Les données peuvent être introduites soit par le biais de cartea perfo- 
rées (ou de leurs images sur bande magnétique et disque magnétique), 
soit par le biais de fichiers standards (pour le paquet envisagé) sur 
disque magnétique ou bande magnétique, ces fichiers représentant 
l'information sur la matrice des données en binaire ligne par ligne 
ou colonne par colonne, de telle sorte que chaque enregistrement est 
une unité *). Les variables de la matrice des données peuvent être 
quantitatives, qualitatives (ordinales) ou nominales (cf. chap. 10). 
Certaines valeurs peuvent ne pas être déterminées du tout. Mais dans 
les programmes des paquets, tous les éléments de la matrice des 
données sont supposés être des nombres. Ces nombres seront donc 
des codes conventionnels pour les variables non quantitatives. Si 
l'informationinitiale est donnée sous une forme symbolique, le paquet 
PPSA prévoit un programme spécial de recodage de cette informa- 
tion sous une forme numérique définie par l'utilisateur. 

Considérons maintenant les possibilités de gestion des donuées 
offertes à l'utilisateur par les ressources insérées dans les paquets 
de programmes pour l'exécution des fonctions suivantes: 

1. Mémorisation des sorties sous forme de fichiers standards, par 
exemple, de matrices des données transformées, de matrices des 
covariances, de matrices des proximités, etc. 

2. Documentation des entrées et des sorties par des codes de ii- 
chiers ou des fichiers d'archives. etc. 

3. Rédaction, c'est-à-dire complètement et correction des fi- 
chiers standards. 


Tableau 12.1 


Utflisa- 


Introduction | Mémorisa- tion de la 
Introduc-| des données tion des Rédaction | matrice | Identifi- 
tion des | par fichiers données des fi- | des cor- lcation des 
données standards de sortie chiers rélations | données 
sur cartes sur bande sous forme standards pour de sortic 
perforées | et disque de fichiers données 
Paquet magnétiques | standards d'entrée 
BMDP 575 oui oui oui non oui oui 
BMDP 79 oui oui oui non oui oui 
SPSS oui oui oui non oui oui 
PPSA oui oui oui oui oui oui 
SOD-GS oui non non non oui non 
OTEKS oui oui oui oui non oui 
SORRA-1 non oui non non non non 
DIAS oui oui oui non non oui 


*) L'organisation des données sur bande et disque magnétiques pour les 
paquets de programmes destinés à l'ordinateur BESM-6 est conditionnée par le 
système d'opérations correspondant. 
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Toutes ces informations sont -récapitulées avec d'autres données 


sur le tableau 12.1 pour les paquets de programmes énumérés ci- 
dessus. 


12.1.3. Méthodes de traitement préliminaire (manipulation) des 
données. Avant d'entamer le traitement statistique proprement dit 
des données, il faut réaliser les opérations suivantes : 

1. Déterminer le sous-ensemble des variables, défini par une liste 
de noms ou de numéros. 

2. Déterminer le sous-ensemble des objets, défini par une liste 
de noms ou de numéros. 

3. Déterminer les sous-ensembles des lignes ou colonnes des autres 
matrices (des covariances, des proximités), définis par des listes de 
noms ou de numéros s'ils sont utilisés comme unités d'entrée. 

4. Déterminer le sous-ensemble des objets dont les valeurs des 
variables se trouvent à l’intérieur (ou à l'extérieur) d'un domaine don- 
né. 

5. Grouper les objets: 

a) selon que la valeur de la variable donnée, appelée générale- 
ment variable de groupement, appartient à tel ou tel intervalle; 

b) selon d'autres crilères de groupement. 

6. Transformer les variables: 

a) par des transformations définies dans le langage d'entrée; 

b) par la procédure par l'utilisateur. 


Tableau 12.2 


Numéro du 5 6 
traite- 
ment 


t L 3 % < 
a b a b 
BMDP 5, 19| oui oui oui oui oui oui oui oui. | oui 
SPSS oui oui oui oui oui oui oui oui oui 
PPSA oui oui oui oui oui oui oui oui oui 
SOD-GS oui non | non | non | non | non | non | non | oui 
OTEKS oui oui non | oui non | oui non | non | non 
PSS oui oui oui oui non |oui oui _— — 
SORRA-1 oui non | non | non | non | oui oui — | non 


DTAS 


7. Normaliser les éléments de la matrice des données (à l’aide des 
écarts-types, de l'étendue, etc.). 


Ces opérations sont représentées pour les divers paquets sur le 
tableau 12.2. 


12.1.4. Traitement des données manquantes. Voyons les possi 
bilités de traitement d’un fichier incomplet. Les méthodes auxquel 
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les nous ferons référence ont été décrites essentiellement au $ 11.4. 
Considérons les méthodes suivantes de traitement des données man- 
quantes : 

1. Codage des données manquantes par des codes spéciaux de don- 
nées manquantes. 

2. Suppression des objets incomplets. 

3. Estimation de la matrice des covariances et du vecteur des 
moyennes : 

a) à l’aide des formules (11.69), c'est-à-dire en tenant compte de 
toutes les valeurs relevées des couples de variables (pour les éléments 
non diagonaux de la matrice des covariances) et de toutes les valeurs 
relevées de la variable pour l’estimation de la moyenne et de la va- 
riance ; 

b) à l’aide d’autres méthodes n’impliquant pas la reconstitution 
des données manquantes. 

4. Reconstitution des données manquantes : 

a) par les composantes principales ; 

b) par une régression linéaire sur les variables mesurées ; 

c) par d’autres algorithmes (par exemple, l'algorithme ZET); 

d) par les moyennes. 

5. Autres possibilités de traitement des fichiers incomplets. 

Les paquets SOD-GS, SORRA-1 ne contiennent pas de procédu- 
res de reconstitution des données manquantes. Par contre, pour le 
paquet OTEKS cette opération fait partie de ses plus importantes 
fonctions et elle est réalisée à l’aide de l'algorithme ZET. Les 
méthodes de traitement des fichiers incomplets sont regroupées dans 
le tableau 12.3. 

Arrêtons-nous en détail sur certaines méthodes auxiliaires de 
reconstitution des données manquantes réalisées dans les paquets 


Tableau 12.3 


Numéro de traitc- 
ment des données 
manquan- 
tes (1)<5) 


Paquet 
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BMD P 79 et PPSA. Comme indiqué au $ 11.4, l'estimation de la 
matrice des corrélations (des covariances) obtenue par la méthode 1 
(cf. formule (11.69)) peut ne pas être semi-définie positive. Les pa- 
quets BMDP 79 et PPSA prévoient une procédure de vérification de la 
semi-définition positive de la matrice S par le calcul de ses valeurs 
propres (ou des valeurs propres de la matrice des corrélations corres- 
pondante). Si certaines valeurs propres sont strictement négatives, 
on peut obtenir une estimation semi-définie positive de la matrice 
des corrélations (des covariances) par un « lissage » qui consiste d’a- 
bord à calculer toutes les valeurs et vecteurs propres de la matrice 
des corrélations B obtenue et à construire une matrice À = U’LU, 
où U est la matrice des vecteurs propres associés aux valeurs propres 
strictement positives de la matrice KR, et L la matrice diagonale des 
valeurs propres strictement positives. En normant ensuite la matrice À, 
on obtient la matrice des corrélations R*. Si, par la suite, on a besoin 
de la matrice des covariances S, on peut la déduire de R* en multi- 
pliant les colonnes et les lignes par les estimations des écarts-types. 
Il est évident que R* comme S* seront des matrices semi-définies 
positives de rang incomplet. Toutefois, étant donné que le rang de 
ces matrices et les valeurs et vecteurs propres de R sont connus, il 
est aisé de déterminer la matrice inverse généralisée (cf. [119]) pour 
les besoins de l'analyse de régression et discriminante. 


12.1.5. Traitement primaire des données qualitatives. Considérons 
les méthodes suivantes de traitement des données qualitatives: 

1. L'analyse des tableaux de contingence comprend 

1.1) une estimation des paramètres et un test des hypothèses 
d'indépendance pour les divers modèles de tableaux de contingence; 

1.2) une estimation des paramètres d’un modèle loglinéaire du 
tableau de contingence ; 

1.3) le calcul des divers coefficients de liaison dans les tableaux 
de contingence à deux dimensions. 

2. Codage des variables en binaire (n° 10.2.4). 

3. Codage des variables qualitatives. 

Les tableaux de contingence (1.1 et 1.3) sont analysés dans les 
paquets BMD P 75 et BMD P 79 (les programmes P9D, P1F), et 
dans le paquet PPSA, d'après 1.3. Le paquet BMD P 79 (program- 
me PID) est muni d’une procédure d'estimation des paramètres du 
modèle loglinéaire. 

Les problèmes de classification sont résolus en binaire dans le 
paquet OÔTEKS. Dans les paquets BMD P 75, BMD P 79 et PPSA, 
on passe facilement aux variables binaires, bien qu'il n'existe pas 
de programme spécial pour cette conversion. 

Décrivons plus en détail la méthode de codage des variables qua- 
litatives. Cette méthode consiste à affecter aux modalités des varia- 
bles qualitatives des codes « raisonnables » dans le contexte du problè- 


358 TRAITEMENT STATISTIQUE PRIMAIRE DES DONNÉES 


me envisagé. Les variables codées sont ensuite manipulées comme 
des variables numériques discrètes. Le critère d'affectation des codes 
dépend du traitement statistique ultérieur : analyse en composantes 
principales, analyse de régression, analyse discriminante. Le codage 
des variables ordinales semble assez naturel. Le codage des variables 
nominales est basé sur le fait qu'aux modalités desdites variables 
correspond un ensemble de valeurs de variables sous-jacentes, qui 
ne peuvent être mesurées directement mais qui existent réellement. 
De sorte que le code attribué à une modalité d'une variable nominale 
est une valeur résultante d’un ensemble de valeurs de variables non 
mesurées, caractérisant les objets correspondant à la modalité envi- 
sagé de cette variable nominale. 

Les critères régissant le codage (cf. (49]) dépendent de la méthode 
d'analyse statistique qui sera mise en œuvre. Cependant, ce sont 
tous des fonctionnelles de la matrice des covariances (des corrélalions) 
dans l’espace des variables codées. Ceci est lié tout d’abord au fait 
que la matrice des covariances (des corrélations) est le principal 
instrument utilisé par les méthodes d'analyse statistique énumérées 
plus haut. 

Ces méthodes consistent à mettre en évidence une ou plusieurs 
combinaisons linéaires des variables initiales jouissant de certaines 
propriétés extrémales ; quant à leur succès, il dépend essentiellement 
de l'intensité des liens entre les variables et du degré avec lequel la 
matrice des covariances reflètera ces liens, c’est-à-dire de la précision 
avec laquelle on peut considérer que ces relations sont linéaires. 

Par exemple, si après le codage on a l'intention d'utiliser les 
méthodes de réduction de la dimension ou d'analyse de la régression 
dans le programme CODAGE du paquet PPSA, on affecte aux moda- 
lités des variables qualitatives des codes numériques maximisant 
le critère 


où i, j — 1, ..., p, p étant le nombre de variables à coder; p:;, 
le coefficient de corrélation entre la i-ième et la j-ième variable après 
codage, w;, des coefficients de pondération positifs. La procédure 
de calcul est la suivante. 

Soit Z;, i — 1. ..., p, un vecteur de dimension L; (L; est le 
nombre de modalités de la i-ième variable) dont les coefficients sont 
les codes affectés aux modalités correspondantes de la i-ième variable. 

Estimons au vu de l'échantillon de base la matrice (le tableau) 
de contingence Q (i, j) de format L; X L;(i=1,...,p; j = 
= 1, ..., p) dont la valeur de l'élément g;, est une estimation de 
la probabilité que la i-ième et la j-ième variable prennent simultané- 
ment, la première, la modalité X, la deuxième, la modalité /. Soient 
P une matrice diagonale dont les éléments sont les fréquences des 
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modalités de la i-ième variable, A; une matrice symétrique semi- 
définie positive d'éléments 


> (Qi. (&, j);, Z;) (Que (&, j), Z;j), (12.3) 
où Let À varient de { jusqu’au nombre de modalités de la i-ième va- 
riable ; (Q:. (ë,j), Z;) le produit scalaire de la l-ième ligne de la matrice 
Q (i, j) par le vecteur Z; dont les composantes sont les codes des mo- 
dalités correspondantes de la j-ième variable. 

Les codes numériques qui maximisent le critère (12.2) sont dé- 
terminés par la procédure itérative suivante. 

Au premier pas, on se donne les valeurs initiales de Z*”, .. 

., Zy” (par exemple, les coordonnées de chaque vecteur 2. 
i — . ..., p, sont des entiers naturels, c'est-à-dire les numéros 
des modalités de la i-ième variable). Ces ‘codes sont normés et cen- 
trés. On calcule ensuite la matrice À, à l’aide de la formule (12.3) 
et on trouve le vecteur propre associé à la plus grande valeur propre 
pour le problème 

AZ1 — P,Z = 0. (12.4) 


Les coordonnées de ce vecteur seront les nouvelles valeurs des codes 
pour Zi. 

Sachant Zi”, on calcule la matrice A, pour Z1!”, Z3, ..., 2% 
fixes et on trouve un nouveau vecteur Z2!. On calcule de même Z3}, 
VAE 

Une fois qu'on connaît toutes les valeurs des codes Zï", .. 

, Z, on passe à la détermination de Zf” pour Z:', , Zp 
fixes et on relance les calculs. 

Cette procédure prend fin lorsque la différence entre deux ité- 
rations successives est inférieure à un seuil donné. 

Remarque. Lorsque le nombre de variables p = 2, le programme 
nous conduit aux codes de Lankaster [77]. 


12.1.6. Méthodes de visualisation des données. Considérons le 
logiciel des méthodes suivantes de visualisation des données (cf. 
$ 10.5): 

1) méthode standard des composantes principales; 

2) méthode non linéaire des composantes principales ; 

3) analyse des proximités multidimensionnelle linéaire. 

La méthode standard des composantes principales est réalisée 
dans les paquets BMD P 75, BMD P 79 (dans JE programme d'ana- 
lyse factorielle P4F), dans le PSS [98, vyp. 2, 14], dans le PPSA 
(programme REDUCT). La méthode non linéaire des composantes 
principales et l’analyse des proximités linéaire sont réalisées seule- 
ment dans le PPSA (le programme REDUCT). 

L'efficacité des méthodes de visualisation se juge à la possibilité 
de délivrer le diagramme de dispersion (scaltergramme) (cf. chap. 10) 
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par toute sorte de terminaux: imprimante, traceur de courbes ou 
écran. L’imprimante est un instrument assez commode qui est passé 
dans l'usage. 

Voyons plus en détail comment est construit le diagramme de dis- 
persion (par exemple, dans le PPSA). Les coordonnées des projec- 
tions des points sont normées. Soient ZL et M les dimensions hori- 
zontale et verticale du diagramme. Ces quantités sont soit données 
par l'utilisateur, soit prennent des valeurs muettes. La position du 
i-ième objet sur l’axe horizontal (l'axe OX) à partir de l'extrémité 
gauche du diagramme est donnée par la formule 


n =[L (x: — Zmin)/(Zmax — Linin) + 0,5}, 


où [ ] désigne la partie entière, tn, et Tnin respectivement les 
valeurs maximale et minimale de la coordonnée x. On détermine de 
façon analogue la position d’un objet (le numéro de la ligne) sur la 
verticale. Au point possédant ces coordonnées on inscrit un symbole 
quelconque, par exemple, la lettre A. Si À objets tombent en un même 
point, on inscrit le nombre de ces objets si À << 10, et le symbole * 
si 4 > 10. S’il existe plusieurs groupes d'objets, on attribue à cha- 
cun d'eux un symbole personnel. Les valeurs des coordonnées X 
et Ÿ sont imprimées dans les échelles correspondantes toutes les 
cinq positions sur l’axe horizontal et toutes les cinq lignes sur l’axe 
vertical du diagramme. 


12.1.7. Estimation des paramètres et localisation des observations 
anomales. Considérons le logiciel relatif à l’estimation des para- 
mètres. 

1. Estimations standards des principales caractéristiques numé- 
riques des variables aléatoires: moyenne, médiane, variance, éten- 
due, coefficient de dissymeétrie, coefficient d'aplatissement, etc. 

2. Estimations des paramètres d'une loi connue a priori: loi 
gamma, bêta, de Poisson, binomiale, etc. 

3. Estimations standards des paramètres de variables aléatoires 
vectorielles : vecteur des moyennes et matrice des covariances. 

4. Estimations stables des paramètres de localisation (cf. 
n° 10.4.5): 

1) moyenne tronquée et médiane; 

2) moyenne winsorienne ; 

3) estimations de Hampel, Tuckey, Andrews; 

4) À-moments. 

5. Estimation stable des paramètres d'échelle. 

Le calcul des estimations standards 1 et 3 est conduit à quelques 
variations près dans chacun des paquets de programmes énumérés. 
Les estimations des paramètres dans le cas où la loi de probabilité 
est connue sont réalisées dans le paquet SOD et dans le PSS [88, 
vyp. 10, razdel 4]. Le logiciel des estimations stables est le moins 
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développé. Les estimations 4.1 à 4.3 sont réalisées dans les paquets 
BMD P 75 et BMDP 79 (programme P2D) et dans le PPSA (pro- 
gramme ESTM), ainsi que dans le PSS [88, vyp. 2, 101. 

Attardons-nous sur la méthode de réalisation des estimations 
stables du vecteur des moyennes et de la matrice des covariances, qui 
figure dans le PPSA [108]. Le défaut des estimations pondérées 
(10.20), (10.21) y compris les estimations des À-moments (10.20), 
(10.21) réside dans le fait que leurs variances croissent avec la di- 
mension de l’espace des variables p [33]. Pour remédier à cet état 
de choses, le programme EST M du PPSA prévoit la démarche sui- 
vante. Pour chacune des p variables on établit p estimations stables 
unidimensionnelles de la moyenne et de la variance, puis on résout 
p(p —1})/2 problèmes bidimensionnels pour déterminer les esti- 
mations stables des covariances, par exemple, par la méthode des 
À-moments. Les difficultés sont de la même nature pour l'estimation 
de la matrice des covariances en cas de données manquantes, savoir 
que la matrice des covariances peut ne pas être semi-définie positive. 
Les propriétés asymptotiques de ces estimations qui sont dites ré- 
duites sont indiquées dans [34]. 


12.2. Calcul des fonctions de répartition et de leurs inverses 


Dans ce paragraphe on décrit des méthodes de calcul des valeurs 
des fonctions de répartition, des points de pourcentage et des in- 
verses des fonctions de répartition des lois les plus couramment uti- 
lisées : la loi normale, les lois du #? centrée et non centrée, les lois de 
Fisher centrée et non centrée, la loi bêta, les approximations des lois 
limites de certains tests non paramétriques, certaines lois discrètes. 
La comparaison de la valeur de tel ou tel test aux points de pourcen- 
tage de la fonction de répartition correspondante constitue géné- 
ralement la phase finale d’un test d’hypothèses statistiques. Ceci 
explique la prolifération des tables des valeurs des fonctions de ré- 
partition (cf., par exemple, [1], [27]). Par ailleurs, l'évolution des 
ordinateurs et du logiciel de la statistique appliquée a institué une 
nouvelle approche de tabulation des fonctions de répartition et des 
quantités qui leur sont rattachées. Du temps où les calculs se fai- 
saient à la main, les utilisateurs étaient intéressés à dresser des tables 
volumineuses susceptibles de délivrer les valeurs des fonctions par 
une interpolation élémentaire. Mais quand on se sert d’un ordinateur, 
on n'a aucun intérêt à mémoriser les tables et à composer un pro- 
gramme qui appellerait la table nécessaire et calculerait ensuite la 
valeur cherchée par une interpolation. Il est préférable de rédiger 
l'algorithme de calcul des valeurs de la fonction avec la précision re- 
quise quand bien même il serait compliqué *). 

*) Les algorithmes de calcul des fonctions de répartition en ALGOL sont 


accessibles dans [45]. [101] ainsi que dans [37]. [28]. On rcurra trouver des 
programmes en FORTRAN dans [88], [116]. 
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Il importe de signaler particulièrement le cas où le calcul des 
valeurs de l'inverse de la fonction de répartition *) est utilisé 
pour la génération des nombres aléatoires obéissant à une loi de ré- 
partition donnée dans les méthodes de simulation statistique (cf. 
$ 6.3). Vu que généralement ces nombres sont générés par grandes 
quantités, il faut mettre en œuvre des algorithmes simples de calcul 
des inverses des fonctions de répartition **) qui n'occupent pas la 
machine trop longtemps. Il va de soi que les anciennes tables n'ont 
pas perdu et ne perdront pas leur actualité dans la mesure où les 
ordinateurs personnels facilitent considérablement leur mise en 
œuvre. 

Quoi qu'il en soit, ce paragraphe met l’accent sur les algorithmes 
(développement en séries de fonctions puissances ét rationnelles, 
formules d’approximation de tout type) programmables sur ordi- 
nateur. 


12.2.1. Loi normale. La fonction de répartition de la loi normale 
d'espérance mathématique m” et de variance © s'écrit 


X (x-m)? 


1 | e 20° dr. (12.5) 


Dix; m, 6) — 
Comme © (x; m, ©) = (= : 0, 1), il suffit de savoir calculer 


la fonction O (rx) = ® (r; O0, 1) dite fonction de répartition de la 
loi normale réduite 


D(r)= | pr, 


où (p @=-e 7 est la densité de probabilité de la loi nor- 


male. Signalons la propriété suivante de la fonction O (x): 
D (—zx) = 1 — D (x). 


Pour calculer les valeurs de la fonction ® (x), on peut la développer 
en série entière, en fractions continues ou l’approcher par des poly- 
nômes de Tchébychev sur divers intervalles. Citons quelques-unes 
de ces formules d'approximation utiles en programmation. 


*) On appelle inrerse 1% (1) d'une fonction de répartition continue F (x) 
une fonction dont la valeur en un point arbitraire « de ]J0. 1[ se définit comme 
la solution de l'équation F (x) = «. 

**) Les formules de ce paragraphe, excepté le cas de la loi normale, ne 
donnent que des valeurs approchées des inverses des fonctions de répartition. 
Pour calculer ces valeurs avec une précision suffisante. il faut mettre en œuvre 
une procédure de recherche d’un zéro d'une fonction continue (cf. par exemple 
[45)) en prenant des valeurs approchces pour valeurs initiales. 
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Formules d'approximation pour la fonction de répartition : 


5 
D(x)=1—(r) 2 biti+e (x). (12.6) 


t = 1/4 + pr), p — 0,2316419; 

b, — 0,319381530, b, — —0,356563782, 
bs = 1,781477937, b, = —1,821255978, 
b; = 1,330274429 ; 
|e (x) | << 7,5-10-8. 


L'approximation suivante est moins précise: 
D(r)=1—p(x) Eat +e(x); 
t = 1/(1 + pr), p = 0,33267; (12.7) 
ai = 0,4361836, a: — —0,1201676, a; = 0,9372980. 
L'erreur | & (x) | de cette approximation est <10-. 


Citons encore une formule d’approximation n’exigeant pas le 
calcul de la densité q (x): 


D(a=1—5 (1+ 5 ar) "+e (2: (12.8) 


i=f{ 
C1 — 0,196854, Co — 0,115194, 
C3 = 0,000344, c, = 0,019527 ; 
| £ (x) | << 2,5-1074. 


On dispose d'une formule d’approximation analogue à (12.8) d'erreur 
Je(z)1<1,5-10-7 ([1], formule (26.2,19)). 

Les formules d’approximation exhibées permettent de calculer 
les valeurs de ® (x; 0, 1) avec la précision requise. 

L'inverse de la fonction de répartition ® (x; m, ao) de la loi 
normale sera désigné par Ÿ (&œ; m, a). On a la relation 


Ÿ(a; m, ©) = m + oŸ (a), 


où Ÿ (&) est l’inverse de la fonction de répartition de la loi normale 


réduite, soit 
D (J(«);, 0,1)=ax («EE ]0, 11). 


Etant donné que %Ÿ (œ) + 4 (1 — &) — O0 pour tout œ € ÏO, 11, 
il suffit de savoir calculer les valeurs de 1 (&) sur le semi-intervalle 
[0,5, 1 . 

Indiquons les formules d'approximation suivantes acquises par 
modification des formules (26.2.22) et (26.2.23) de [1] (dans ces deux 
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formules, t — V —2 In (4 — a), & € [0,5, 1 [): 


po)=t— NT des (0), (12.9) 


ao = 2,30753, a — 0,27061, 
b, = 0,99229, b, = 0,04481 : 


Ÿ (œ) — ne + e2 (a), (12.10) 
Co — 2,915517, c, = 0,802853, c, — 0,010328, 
d\ — 1,432788, d, — 0,189269, d, — 0,001308. 
L'erreur | €; | << 3-10" et | e; | << 4,5-1074 Citons un autre dé- 
veloppement intéressant de + (a): 


œ 


p2(aœ)=— > a [—In (1—4(œ—1/2)}°}. (12.11) 


=! 
Les quatre premiers coeïficients du développement sont: 
a, = 7/2, a = 0,37068870-10”1, 
as = 0,83209445-10%, a, = —0,23232430-10. 
Les quatre premiers termes du développement fournissent une 


précision suffisante pour les applications pratiques dans l'intervalle 
0,03 a < 0,97. 


12.2.2. Loi du y’. La loi du 4° est appliquée dans les problèmes 
d'estimation et de test d’hypothèses statistiques (cf. chap. 11). 

La fonction de répartition de la loi du #° à v degrés de liberté est 
définie par la formule 


0 si z<0: 


- 12.12 
x2 (9 (2) Cu (y) | tete dt (220), En 


0 
où la constante de normalisation C2 (v) = (2v2T (+))". 
On a 
Fe (a) =20(V z)—1, 
pour v = 1, et 


Fyç (x) = 1 — e*/*, 
pour v = 2. 
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Dans le cas général, on calcule les valeurs de la fonction de ré- 
partition (12.12) en la développant en série. Exhibons deux dévelop- 
pements en séries entières (cf. [1], formules (26.4.6) et (26.4.7)) con- 
vergents pour tout x > 0: 


Ep () (x) =Ce (az) CV (12.13) 
n=0 A] (r ++) 
Fya(w (x) = : 
= Cys (v) e—x/2 ( + > REA TPE A NE PEUT À : (12.14) 
mi (1++) (2+5+)...(r++) 


Lorsque v > 2, les termes de la série (12.14) décroissent plus vite 
que ceux de la série (12.13) pour tous les x. 

Pour les grandes valeurs de x (x > v), il est préférable de se servir 
des formules d’approximation basées sur les développements de 
Pade *): 

1— Fi oz = 2C TEge En 2) 12.15 
x2 (vT = éLy2 (ve “zx FA (w, à) + En (2), (12. 5) 
où 


Et =, Ev, 2=(2—+) (1+2), 
Fi(v, z)=1, F,(v, 2=(2-+)" (2 ++). 


L'erreur e, (x) — 0 lorsque x — et est strictement négative pour 
x > v, de sorte que l’on a l'inégalité 
= Vie 
1— Fc (DSC (Ne Tr RS (av). 
n (V, 2) 


Les fonctions £, (v, x) et F, (v, x) vérifient une même relation de 
récurrence que l’on pourra utiliser pour le calcul d’approximations 
plus exactes: 


(n+2——+) Faut, z) = (+ +2r+2—+) Fh(v,z)—nF,_i(v, x). 
Pour nr — 2, on a 
Et 3 (z2+4—+) P\(x)— (2-+) 
RG (anta +) Q@—(2-+) 
où Pifr)=t+e, Q(n=2+s 


ue Luke Y. Mathematical Functions and their Approrimations. New4York, 
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Formules d'approximation pour les grands v. Lorsque v est élevé, 
on a les approximations suivantes qui sont suffisamment précises: 
Fpin(t=D(z)+e, z=V2r—-V2v—1; (12.16) 
2 

\1/3 ii 

(z/v}i/ (1 = | 
y 2/9v 


La fonction de répartition inverse F4, (x) peut être approchée 
à l’aide des formules (12.16) et (12.17): 


Fra) =0(m)+es 2= (12.17) 


Fo (o) À {ba +V 21}; (12.18) 
Fo @ & v {1 — 2 + Ÿ (a) VV &}. (12.19) 


12.2.3. Loi bêta. La fonction de répartition Fp(a,v)(xz) de la 
loi bêta de paramètres a >> 0, b > 0 est définie par la formule 


Fa, (x) = Ce(a, b) Lert (1 ppt dt (0Sr<1): 
0 


(a) (12.20) 
Cp, D) = AB (a, d= RE. 
On a la relation 
Fat b) (£) = 1— Fg(e, a (1 —2)- (12.21) 


Si l’un au moins des paramètres a et b est égal à 1, l'intégrale 
(12.20) se calcule sans peine sous forme finie. Dans le cas général, 
pour calculer les valeurs de la fonction F(a,s{x), il est avantageux 
de la développer en série de Taylor au voisinage de 0: 


# Q 21(41—b)(2—b) .… (n—bd 
Fpta, b) (x) = Cs (a, b = (1+a ZX ere me 
n= 1 


(12.22) 
En vertu de la relation (12.21), on peut toujours faire en sorte que 
z E [0, 1/2] et, par suite, accélérer la convergence de la série de (12.22). 
Les dix premiers termes du développement assurent visiblement une 
erreur relative Ô << 107‘, les quatorze premiers, une erreur relative 
ô << 10-° uniformément en a et b. 
Préalablement on pourra appliquer la formule de récurrence 


Fpte, (x) = Ca, b)z°(1—x)-1/a + Fpta+1, 5-1) (2) 
pour réduire le paramètre b de telle sorte que b soit <<1. 


La fonction inverse Far) (&œ) est approchée par l'expression 
([11, formule (26.5.22)): 


Fit («= 7 


EE (12.23) 
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« 


ou 
wæ + @MHANE (1 hrs) 


2b—1  2a—1 
: 1 1  \-1  .  yt(«)—3 
(rt) 


où Ÿ (a) est l’inverse de la fonction de répartition de la loi normale 
réduite. Lorsque l’un des paramètres a ou b est voisin de !/,, l'erreur 


de la formule (12.23) est considérable. Ainsi, Fflo.s) (&) tend vers 1 
pour a — 1/,, et vers O, pour b — !/, quel que soit «. 

12.2.4. Loi de Fisher. La fonction de répartition de la loi de 
Fisher est définie par la formule 


Î 
—— v —— V'a 
TE _— 


f ætvi-2) 7 (vi+ve) 
Frivs, ve) (&) = le :° (vo + vit) dt, 
U 
(12.95) 
zr>U, vV>U0, vw > 0. 


Cette fonction vérifie la relation 
Ft, vo) (x) = | — Frive. V1) (1/x). (12.26) 


Cette relation est identique à la relation (12.21) concernant la fonc- 
tion de répartition de la loi bêta (compte tenu de (12.27)) et permet 
de calculer les valeurs de F}(,,., (x) uniquement pour x > 1 (ou 
z 1). Un procédé de calcul exact des valeurs de Frç,,v, (x) est 
basé sur le lien de cette fonction avec la fonction de répartition de 
la loi bêta 


Fr(vi. va) (x) — L— Fpvir2, va/2) (y), (12.27) 
OÙ y = Vo/(Va + V1T). 
La fonction de répartition inverse FFx,v., (&) est approchée 


à l’aide de (12.23) en tenant compte de la relation liant les fonctions 
de répartition des lois bèta et de Fisher: 


Fu. vn (a) & €”, 
où u° est définie par la formule (12.24) pour b — = a = . Les 


autres méthodes d’approximation de la fonction F74,,v, (&) sont 
décrites dans ([76], chap. 16) et [27]. 

12.2.5. Loi t de Student. La fonction de répartition de cette 
loi est donnée par la formule 


—— es 
Fey (&) = 5 Es +) (4 + =} ? PE qe. (12.28) 
Er rRe RS 
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Comme dans le cas de la fonction de répartition de la loi F, pour cal- 
culer les valeurs de la fonction (12.28), on peut se servir de la relation 
qui la lie à la fonction de répartition de la loi bêta: 


Fuw @=t-e, (y) 


t 
T2) 
où 
? \-1 

y=(1 de =) (x > 0). 
La fonction de répartition F4, se calcule sans peine pour x < 0 
grâce à la symétrie: 

Fiv) (—2) = 1 — Fam @)- 


Pour calculer les valeurs de la fonction de répartition inverse 
Fi (&), on se sert du développement suivant ([1], formule (26.7.5)): 


Fly (a)=z,+ Hs + He) + SCe +... (12.29) 


Za —= Ÿ (a), 
[at=+ (+3); 


82 (2) + (5x° + 1629 + 3x) ; 
1 (12.30) 
CAGE 33% (3x7 + 192$ + 4723 — 157); 


a ()= 55407 (792 + 77627 + 148275 — 192079 — 9457). 


La loi £*, c'est-à-dire la loi du carré d’une variable aléatoire sui- 
vant la loi {, présente souvent dans les applications plus d'intérêt 
que la loi {. La loi {* est un cas particulier de la loi F à 1 et v degrés 
de liberté, étudiée au n° 6.1.4. 


12.2.6. Lois non centrées. Les fonctions de répartition des lois 
du %° et F non centrées s'expriment par des séries de fonctions: 


Fyatv, x) (&) = À GFyxv+21 (T) ; (12.31) 
Fr(v. va, À) (x) == 2 a; F r(vi+21, va) (Z), (12.32) 


{ oO 
aj—=e-#2 CA, D a=1. 
{0 
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Les fonctions de répartition (12.31) et (12.32) peuvent donc être 
traitées comme un mélange constitué d'un nombre dénombrable de 
composantes des fonctions de répartition des lois centrées correspon- 
dantes. La méthode la plus directe de calcul des valeurs des fonctions 
de répartition (12.31) et (12.32) consiste à faire la somme des termes 
des séries (12.31) et (12.32), calculés avec la précision nécessaire. 
Ceci étant, l’erreur de calcul À (k, €) < | e | + Ô (k), où | € | est 
l'erreur de calcul du terme de la série et à (k) l'erreur introduite par 
la troncature de la série à l’ordre 4. 

La quantité Ô (4) admet la majoration suivante: 

Ô (x) = 2 aiFya(v+21) (2) < 2 a = 1— Fran (À). 

Cette inégalité nous permet d'estimer sans peine le nombre k, de 
termes de la série (12.31) ou (12.32) suffisant pour que 6 (k,) << ôs, 
où ô, est une valeur donnée de l'erreur. 

Les fonctions de répartition (12.31) et (12.32) peuvent être expri- 
mées par des formules d’approximation faisant intervenir les fonc- 
tions de répartition des lois centrées correspondantes : 


Fyrçv, à) (7) & Faye) (x), (12.33) 
où ; : 
“+22 + 
Reg 0 No 
et 
Fri, va, 0 (à) & Frçvs, va (&*), (12.34) 
où 
LA : A2 
sil . on TA 


Ces approximations peuvent être utilisées en particulier pour le cal- 
cul des fonctions de répartition inverses des lois non centrées (cf. 
formules (12.18), (12.19)). 


12.2.7. Approximation des ailes des lois de type w°. La détermi- 
nation des valeurs exactes de la fonction de répartition de la statis- 
tique d’un test d’hypothèse d'ajustement et des statistiques de type w° 
de test de l’hypothèse de normalité donne lieu à des calculs assez fas- 
tidieux (cf., par exemple, [92]). Cependant les ailes des fonctions 
de répartition correspondantes sont justiciables d’une approxima- 
tion simple dont la précision est satisfaisante pour les applications 
pratiques. Plus exactement, dans [128] on montre de façon empirique 
que l'aile droite de la fonction de répartition de la statistique w° 
du test de Mises-Cramer se laisse bien approcher par l'expression 


a = P(W° > z) = 0,05-e(270—6:) Le. (12.35) 
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L'erreur & est telle que 
| e | 0,002 pour «& € [0,05, 0,15] et respectivement 
zE]0,274, 0,461 |; 
| e | L 0,001 pour & E (0,01, 0,05] et respectivement 
z€]0,461, 0,743 [. 


Par exemple, pour &æ = 0,01 (resp. z = 0,743), la formule (12.35) 
nous donne la valeur 0,0094 et pour & = 0,001, la valeur 0,0007. 

Par une factorisation empirique, on peut approximer les ailes 
droites des fonctions de répartition des statistiques w° proposées 
pour le test de la normalité (cf. n° 11.1.7). Ainsi, lorsque la moyenne 
et la variance sont estimées sur le vu de l'échantillon, on a 


a=1—F(W'<2) 2 2,335-e-%,0,4068 (12.36) 
et si l’on estime seulement la moyenne sachant la variance, alors 
am 1i—F(W°<z) = 2,0-e-*°.°%1. (12.37) 


Le tableau 12.4 sur lequel sont consignées les valeurs, nominales 
et calculées par les formules (12.36) et (12.37), du seuil de significa- 
tion &« permet de juger de la précision de ces formules. 


Tableau 12.4 


Valeur nomi-| Formule | Formule Valeur nomi- Formule Formule 
nalc de «a (12.36) (12.37) nalc de « (12.36) (12.37) 
0,5 — 0,4958 0,1 0,1003 0,1010 
0,4 _— 0,3961 0,05 0 ,0506 0,05088 
0,3 0,2953 0,2981 0,01 0,107 0,01012 
0,2 0,1983 0,1998 0,005 0,00505 0 ,00500 
0,1 0,14 0,1507 0,001 0,00098 


12.2.8. Loi normale multidimensionnelle *). Soit Z une varia- 
ble aléatoire normale p-dimensionnelle. La fonction de répartition 
F (X) de X se définit comme suit: F(X) = P (z: < x, -.. 
-.., Z2p S Tp). La fonction de répartition d'une variable aléatoire 
normale p-dimensionnelle de vecteur des moyennes M et de matrice 
des covariances Ÿ sera désignée par D, (X; M, 2). Appelons 
®, (x, y; p), où p est le coefficient de corrélation, la fonction de ré- 
partition de la loi normale réduite à deux dimensions (m, = m; = 0, 
O1 = O2 — 1). Pour le calcul de la fonction de répartition à deux 


*) L'ouvrage [93] passe en revue les travaux et méthodes concernant le 
calcul des fonctions de répartition des lois normales multidimensionnelles. 
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dimensions, on dispose de formules facilement programmables. 
Citons la formule d'Owen [93]: 


D (x, y; p=+D(:)+ 


+R D(y)—T(x a)—T(y, a) (x2>0, y>0), (12.38) 


ou 
h 
! a exp {—+ (1+52)} 
Th, a)=— | = dz ; 
0 
a — y — PT _ LE 


Pour calculer la fonction ®, (x, y; p) dans les autres quadrants, on 
transforme les variables x et y à l’aide des formules suivantes: 


D (x, y; p) = D(z) — D, (x, —y; p), 
D, (zx, y; p) = ® (y) — D, (—x, y; p), 
P: (x, y: p) =D (x) + D (y) —1+ D (—zx, —y; p). 


Dans ([93] on trouvera des approximations différentes de la fonc- 
tion T (k, a). 

Dans le cas multidimensionnel, le calcul de la fonction de ré- 
partition se ramène à une intégration p-uple de la densité de proba- 
bilité. Les méthodes de calcul sont basées soit sur le développement 
de la fonction de répartition en séries entières multidimensionnelles 
des coefficients de corrélation [76], soit sur l’abaissement de la di- 
mension de l’intégrale, soit sur la simulation de la variable aléatoire 
vectorielle correspondante (par la méthode de Monte-Carlo) de fonc- 
tion de répartition donnée, soit en combinant les deux derniers pro- 
cédés. Penchons-nous seulement sur la méthode d’abaissement de la 
dimension de l'intégrale qui ne passe que pour une structure bien 
définie de la matrice des corrélations. 

Soit R = (p;;) (i, j = 1, ..., p) la matrice des corrélations 
d'une loi normale multidimensionnelle, et soit 


pu =Ù Bu8 (Gi j, à, j—=1, ..., p). (12.39) 
Alors 
x1 X jh 
D(X: 0, R)= RE J .. esp(-+7R 2) dZ 


24% 
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se représente par l'intégrale k-uple 


n +00 +00 p 
D, (X ; 0, STE TE Î se el IS né 
R 
Zi D Bisvs | -2 D vi 
Xe 1 ay. 


Dans le cas particulier où tous les coefficients de corrélation sont 
égaux et positifs, on obtient À = 1, p;; = b°et 


_# 
Kill (tr) 7 dy (42.40 


O,(X ; 0, R)— 


L'importance de la ra PTE s'explique par le fait qu'as- 
sez souvent la matrice des corrélations peut être approchée assez 
exactement par des relations de la forme (12.39) en prenant pour quan- 
tités Bis (ë = 1, ..., p; s — 1, ..., k) les composantes des vec- 
teurs propres associés aux plus grandes valeurs propres de la ma- 
trice KR. 

Considérons maintenant quelques résultats relatifs à la proba- 
bilité d'un vecteur aléatoire de tomber dans une région de forme spé- 
ciale. En statistique, on est souvent conduit à calculer une inté- 
grale normale n#-uple étendue à un domaine dans lequel les p com- 
posantes de À sont toutes strictement positives (appartiennent au 
premier quadrant): 


P(X>0)=1—0,(0; 0, 2) = L, (0, Z). 
Ce problème est certes bien plus facile que le problème général, mais 


il n’en pose pas moins de grosses difficultés analytiques pour p > 3 
(cf. [76]). Indiquons les résultats acquis pour p = 2 et p = 3: 


L:(0, R)= Arcsin p/(2r)+—+ , 
Ls(0, R)— = + _—. (Arcsin p,, + Arcsin p,, + Arcsin py;)- 


De la formule (12.40) il s'ensuit que si tous les p sont égaux, alors 


+oo 
L,(0, R)— 2 | @c-enre 


_VT 
2 


dy. 


Des résultats simples peuvent être établis pour la probabilité 
P (4°, Z, M,) que le vecteur X tombe dans un ellipsoïde de la 
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forme 
(X — M) ZT(X — M,)< a°, 
où Z est la matrice des covariances; M, le centre de l’ellipsoïde. 
Cette probabilité s'exprime au moyen de la fonction de répartition 
de la loi du 4° non centrée (cf. n° 12.2.6): 
P (47, 2, Mo) = Fyxp, 3) (a?) ; 
À—=(M— M) S1(M—M)). 


12.2.9. Lois discrètes. Citons quelques brèves indications pour 


le calcul des fonctions de répartition de certaines variables aléatoires 
discrètes. 


Loi de Poisson 


=] | 
D e-? _ = 1 — Fay) (x), (12.41) 
j=0 
où v— 2x  T= 2À. 
Loi binomiale 
D Cip' (A— p}" {= Fpm, n-m+1)(P)- (12.42) 
1=m 
Loi binomiale négative 
D Ci prqi= Fptm,n)(9) (9=1—p). (12.43) 
1=m 
Loi géométrique 
DU—-pa=i-. (12.44) 


12.2.10. Calcul de l’espérance mathématique des statistiques de 
rang. Soient z1, ..., x, des variables aléatoires indépendantes de 
fonction de répartition F (x) et de densité de probabilité f (x) con- 
tinues. En rangeant les observations 1, . . ., z, par ordre de gran- 
deur croissante, on obtient un échantillon ordonné Zu) < (a) 
< ... L Im) que l’on appelle encore série variationnelle. La sta- 
fistique zx) s'appelle statistique de rang r (pour plus de détails sur 
les statistiques de rang, cf. n° 5.6.4). 

La densité de probabilité de la statistique de rang r est; 


ren = pr LE OF GT (0). 


Les statistiques de rang et la densité de probabilité t-1f {{x — u)/t} 
sont justiciables des égalités 


o _(&) 
Ex) — U + rt: Vx(r) — T Gr , 
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où g, et 0? ne dépendent pas de u et de t et peuvent être détermi- 
nées, par exemple, par une intégration des fonctions respectives 
(z et z°) avec la densité f,, (z). Ceci explique que les résultats sont 
exhibés pour les statistiques de rang pour p = 0 et t = 1. 

La quantité Ezx,,, joue un rôle important dans les applications 
des statistiques de rang dans les tests d’hypothèses statistiques 
(cf. $ 11.2). Une méthode de calcul de cette espérance mathématique 
est basée sur la transformation v = F (x) qui nous ramène à des 
variables aléatoires indépendantes uniformément réparties sur l’in- 
tervalle J0, 1[. Cette transformation étant monotone, on a 


Ver) = Ft) et Zen = FT (Ur). 
De la formule de f,, (2), il résulte que les variables &,, suivent une 
loi bêta et 


En = ET à 
r(n—r+1) . 
(n+1)(n+2) ? 
2r(n—2r+1)(n—r+1) 
(r+1)$ (n +2) (nr +3) 


VU(r) = 


E [ue — Ev)] = 


D'où la valeur approchée 


Ezç,, & F1 (Eu) = F° Er: (12.45) 


er) 

On obtient une meilleure approximation en développant la fonc- 
tion F-1 (v,,)en série de Taylor au voisinage de Er, = «&,. Ainsi, 
en limitant le développement à l’ordre trois, on obtient 


Exyp=e,— (f' (æ,)/(f (@,))2) V (ve) + 
gare CUP) EEE) +0 (2), (12.46) 
où e,— F1 (Ev,) = F"1(a,) = F1 (= 


mules plus exactes en utilisant un plus grand nombre de termes de la 
série de Taylor et, par conséquent, un plus grand nombre de mo- 
ments de w;,,} Le développement (12.46) est identique à celui de 
Pearson [76]. En se limitant aux deux premiers termes du développe- 
ment (12.46), on obtient pour la loi RoERes 


) - On obtiendrait des for- 


= ar Va _ r(n—r-1) 9 
Ex, = D'i(a,) + ——— 73 mt (12.47) 
Une autre méthode de calcul des valeurs approchées de Ex, con- 
siste à remplacer le second membre de l'égalité (12.45) par 
ss r+a 
F n+2a+îi ke 
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On a montré, en particulier, qu’il faut prendre a — —3/8 *) 
pour les statistiques de rang d'un échantillon prélevé dans une popu- 
lation normale. 


Conclusions 


1. Le traitement primaire des données est présenté d’une façon 
assez complète dans le logiciel de la statistique appliquée. 

2. Il existe des méthodes efficaces de calcul des fonctions de ré- 
partition des lois les plus couramment utilisées en statistique ap- 
pliquée : les lois du #*, de Fisher, bêta, de Student, de Gauss. Des 
procédures simples ont été élaborées pour inclure ces méthodes dans 
le logiciel de la statistique appliquée. 


*) Blom G. Statistical estimates and transformed beta-variables. N.Y., 
Wiley, 1958. 


NOTATIONS d 


Observations primaires 


n nombre des objets sondés, nombre d’observations d’une varia- 
ble aléatoire indépendante ; 
p nombre de caractères (variables) mesurés sur chaque objet; 


1% valeur de la j-ième variable sur l’objet i; 


(#) 
Nc ii 
vecteur colonne des valeurs des p 

variables relevées sur l'objet à; 


(4) 


BP (OA PO de done 

(2) (2) ; o (t matrice aes aonnees 
2, (4), 2 (), » In (4) initiales relevées à 
l’«instant» t; 


X; — 


X (t)= 


dP)(t), P)(t), ..., 2 (4) 


P:3 (t) caractéristique numérique de la proximité (ou de l’éloigne- 
ment) de deux objets ou de deux variables de numéros à et j à l’« ins- 
tant » {; 


Pas (8) Psa (€) … Pim (4) matrice des distances des 
Pas (£) P22 (£) - Pam (Ÿ) objets (alors m—n) ou des 
TS diam variables (alors m— p) rele- 


Br () Pas) Pan(t)} Ve à «instante fr. 


o (t) = 


Notions de théorie des probabilités 


P {A} probabilité de l'événement À; 

P {A | B} probabilité conditionnelle de l'événement À sachant 
que B s'est réalisé; 

P {AB} probabilité de la réalisation simultanée des événements À 
et B; 
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Fe(z) fonction de répartition de la variable aléatoire £; 


FC (x) fonction de répartition empirique construite sur le vu 
de x observations; 


Fa)... (2%, ..., 20) fonction de répartition d’une varia- 


ble aléatoire vectorielle : 
O(P)F: (zU), ..., zP)) 
fe (20), ..., a) = 


dz(1) Ox(*), ..., Ox(P) 


densité de probabilité d'une variable aléatoire vectorielle E ; 


Eg (ë) = e (x) fe (x) dx espérance mathématique de la fonction 


g (£) de la variable aléatoire E; 
mx = EE* moment initial d'ordre 4 de la variable aléatoire E; 
m1 = Eë moyenne théorique ou espérance mathématique de E; 
mx’ = E (Ë — m,)*) moment centré d'ordre k de la variable aléa- 
toire &; 
m2 = 6° — VE variance de E: 
B, = m3” (m2) %/* coefficient de dissymétrie; 
Bo (m2) — 3 coefficient d'aplatissement ; 


e — Ma 
Tméd Médiane; 
Zmo4 Valeur modale (ou mode) de la variable aléatoire; 
x 
De | e-**/2? dx fonction de répartition d’une variable 


aléatoire normale (gaussienne) d'espérance mathématique 0 et de 
variance À; 

p (zx; a, 6°) densité d’une variable aléatoire normale d'espé- 
rance mathématique a et de variance 6‘; 

N (a, 6°) loi normale de moyenne a et de variance 0°; 

N (M, 2) loi normale multidimensionnelle de vecteurs des moyen- 
nes M et de matrice des covariances Z; 

EE N la variable Ë suit la loi W'; 

Y (x) fonction inverse de ® (x) si le contraire n'est pas spécifie ; 

ua (F) quantile d'ordre g d'une variable aléatoire de fonction de 
répartition F; 

WQ = U-0/100 Point de pourcentage 100 Q de la loi; 

cov (EM, EU), o;; moment mixte d'ordre deux ou covariance 
des composantes El) et EU) de E; 

E = (G;)1, j=1, ...,p matrice des covariances ; 

ry=—Tà# coefficient de corrélation entre les variables 

(o;j0nn)"/ 

aléatoires E() et E(*) ; 
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det Z, Tr (Z) déterminant et trace de la matrice: mesures de 
dispersion d’une variable aléatoire vectorielle ; 
v: coefficient de variance. 


Notions de statistique mathématique 
Ta T(ah + + ++ Ln) échantillon ordonné ou série variationnelle; 


my (n), m (n) estimations des moments initial et centré sur le 
vu d’un échantillon de taille » ; 


S, Ÿ estimation de la matrice des covariances : 


x (n), M; (n) vecteur des moyennes empiriques d’ un échantillon 
de taille n; 

s° estimation de la variance, s estimation de l’écart-type; 

d, erreur absolue moyenne: 

L'(X,, X2, - -., Xn), L (X, 6) fonction de vraisemblance; 

I (6, X) matrice d'information de Fisher; 

H hypothèse statistique ; 

a seuil de signification ou niveau d’un test; 

1 — B puissance d’un test: 

d;; distance entre des observations vectorielles X; et X ;; 

4° (4) valeur aléatoire suivant une loi du 4° à À degrés de liberté, 
statistique du test du #°; 

ns D;', D, statistique du test de Kolmogorov-Smirnov ;: 

o statistique du test du w°; 

Fain, Variable aléatoire suivant une loi F à n1, n° degrés de li- 
berté, statistique du test de Fisher. 
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